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中 文 版 序 一 


2010 年 ，NoSQL 在 国内 掀起 了 一 阵 热 调 ， 其 中 风头 最 劲 的 莫 过 于 MongoDB 了 。 越 
来 越 多 的 业界 公司 已 经 或 准备 将 MongoDB 投入 实际 的 生产 环境 ， 很 多 创业 团队 也 
将 MongoDB 作为 目 己 的 首选 数据 库 ， 创 造 出 令 人 眼花 纺 乱 的 移动 互联 网 应 用 。 


我 在 2008 年 开始 接触 MongoDB ， 经 历 了 早期 的 0.8 到 现在 最 新 的 1.8， 并 从 0.9 将 
其 部 署 到 生产 环境 中 ， 对 MongoDB 的 迅速 发 展 感慨 良 多 。MongoDB 自由 灵活 的 文 
档 模型 ， 让 我 的 开发 过 程 无 比 顺畅 。 对 于 大 数据 量 、 高 并 发 、 弱 事务 的 互联 网 应 用 ， 
MongoDB 则 是 一 个 如 瑞士 军刀 般 的 利 恬 。 尽 管 我 不 认同 MongoDB 会 在 所 有 场合 完 
全 取代 MySQL， 但 我 相信 它 完全 可 以 满足 Web 2.0 和 移动 互联 网 应 用 的 数据 存储 
需求 。MongoDB 内 置 的 水 平 扩展 机 制 提供 了 从 百 万 到 十 亿 级 别 的 数据 量 处 理 能 力 ， 
其 开 箱 即 用 的 特性 也 大 大 降低 了 中 小 网 站 的 运 维 成 本 。 对 于 创业 团队 ，MongoDB 
也 是 不 二 的 选择 。 


从 我 目 己 的 实践 来 看 ， 扔 掉 MySQL 的 结果 其 实 并 不 难 ， 前 提 是 你 要 改变 思路 ， 理 
解 MongoDB 的 设计 哲学 ， 正 视 它 的 优 缺 点 。 做 到 这 一 点 并 不 容易 ， 而 有 手头 这 本 
书 作为 参考 ， 可 以 让 你 少 走 很 多 的 弯路 。 


在 给 本 书写 序 的 时 候 ， 我 收 到 一 封 来 自 淘宝 的 朋友 的 邮件 ， 询 问 我 关于 Mongo shell 
的 一 个 小 问题 。 很 巧 的 是 ， 问 题 的 答案 就 在 本 书 的 第 2 章 中 。 所 以 你 看 ， 即 便 是 很 
有 经 验 的 MongoDB 开发 者 ， 本 书 也 能 给 你 带 来 很 多 惊喜 。 


本 书 译 者 程 显 峰 是 MongoDB 中 文 社区 的 推动 者 ， 这 些 年 一 直 致 力 于 MongoDB 的 
普及 和 官方 文档 的 翻译 工作 。 我 是 在 2010 年 他 组 织 的 国内 首次 社区 聚会 活动 上 认识 
他 的 ， 在 那 次 聚会 上 ， 程 显 峰 邀 请 MongoDB 专家 Peter Membrey 给 大 家 做 了 一 次 
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精彩 的 演示 ， 这 给 我 留 下 了 极为 深刻 的 印象 。 1 
作为 中 译本 ， 大 家 最 关心 的 是 译文 是 否 能 够 原 汁 原味 地 将 原 书 的 精华 完整 展现 出 来 ， 
同时 还 要 避免 生 卒 卜 义 。 初 读本 书 ， 我 认为 译 者 做 到 了 这 一 氮 。 作 为 首 本 MongoDB 
终于 成 文 。 由 此 可 见 其 态度 之 认真 。 


我 相信 ， 在 未 来 1~2 年 ，MongoDB 和 Nginx、Linux、PHP/Python/Ruby 的 组 合 ， 
将 取代 原来 的 LAMP 组 合 ， 让 我 们 拭目以待 。 


视觉 中 国 CTO 潘 凡 
2011 年 4 月 
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中 文 版 序 二 


初 见 MongoDB 是 在 2010 年 年 初 ， 当 时 我 正 要 启动 一 个 互联 网 产品 的 开发 工作 ， 
此 进行 技术 选 型 也 是 顺理成章 的 事情 。 我 是 个 相对 比较 激进 的 技术 人 员 ， 总 是 不 甘 
于 使 用 自己 熟悉 的 东西 。 过 去 做 互联 网 产品 开发 ， 大 都 使 用 SQL Server、MySQL 
或 PostgreSQL 等 关系 型 数据 库 产 品 ， 配 合 现成 的 数据 访问 工具 或 类 库 ， 开 发 起 来 还 
算 熟 练 。 


但 我 也 一 直 在 寻找 关系 型 数据 库 的 替代 品 ， 因 为 我 党 得 它 使 用 上 着 实 有 些 不 便 。 例 
如 ， 为 了 产品 中 的 某 个 实体 的 查询 操作 ， 我 们 需要 把 一 个 本 属于 该 实体 的 数据 拆 分 
至 另 一 个 表 中 ， 以 便 进 行 连接 查询 。 于 是 无 论 是 创建 、 删 除 还 是 更 新 ， 我 们 要 涉及 
的 操作 便 增加 了 许多 。 更 别 说 互联 网 项 目 时 刻 都 在 发 展 和 变动 ， 改 变 一 个 存储 单元 
的 结构 是 常事 ， 至 今 关 系 型 数据 库 的 在 线 模式 更 新 依旧 不 是 件 简单 的 事情 。 


总 而 言 之 ， 我 烦 。 


由 于 没有 历史 包容 ,我 总 是 设法 在 新 项 目 里 引入 一 些 特 别 的 事物 。 这 次 也 不 例外 。 
当时 正 是 NoSQL 了 逐 光 兴起 的 时 刻 ， 我 便 去 了 解 了 一 下 相关 的 存储 产品 。 例 如 Tokyo 
Cabinet/Tyrant、CouchDB 或 是 MongoDB 等 。 最 终 我 选择 了 MongoDB， 因 为 它 最 
为 简单 易 用 。 它 的 集合 支持 松散 的 模式 ， 易 于 灵活 调整 。 它 支持 复杂 的 属性 ， 并 可 
为 之 建立 索引 ， 作 为 查询 条 件 。 它 还 可 以 直接 对 记录 的 某 个 字段 进行 原子 性 的 改变 
一 一 这 在 NoSQL 产品 中 并 不 多 见 ， 例 如 在 尝试 Tokyo Tyrant 时 发 现 ， 更 新 一 条 记 
孙 需 要 客户 端 进行 一 次 完整 的 读 取 和 提交 ， 这 直接 断 了 我 用 Tokyo Tyrant 作为 主要 
存储 方式 的 念头 。 


设 蚀 ，MongoDB 首先 吸引 我 的 就 是 它 的 易 用 性 ， 而 不 是 业界 津津 乐 道 的 性 能 或 是 
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海量 数据 下 的 表现 等 。 因 为 在 我 看 来 ， 如 今 分布 式 环境 对 “ 单 点 ”下 的 性 能 及 海量 
数据 支持 的 要 求 并 不 如 想象 中 那么 重要 ，Facebook 等 互联 网 巨 壁 所 总 结 来 的 经 验 ， 
对 我 来 说 更 具 学 习 意义 而 不 是 现实 意义 。 我 想 要 寻找 的 东西 ， 它 就 该 是 易 用 的 。 具 
体 来 说 ， 便 是 对 程序 员 友 好 。 


我 是 程序 员 ， 我 懒 。 


这 么 看 来 ， 可 能 我 选择 MongoDB 有 些 盲 目 而 冲动 ， 当 时 除了 SourceForge 之 外 ， 
似乎 也 没有 人 在 用 MongoDB 作为 主要 存储 方式 。 但 事实 上， 我 也 花 了 一 周 多 的 时 
上 则 观察 MongoDB 的 表现 。 我 预测 了 未 来 一 年 里 的 数据 量 ， 构 造 尽 可 能 真实 的 测试 
数据 和 结构 ， 在 生产 环境 中 长 时 间 地 运行 以 观察 它 的 性 能 及 稳定 性 表现 。MongoDB 
最 终 也 没有 让 我 们 失望 。 我 们 也 没有 利用 当时 还 不 成 熟 的 Auto Sharding 功能 ， 而 是 
设计 了 能 够 自由 水 平 拆 分 的 架构 方案 ， 确 保 对 MongoDB 单 点 数据 量 的 控制 。 我 不 
能 确保 MongoDB 是 一 个 永久 可 靠 的 方案 ,我 只 是 想 保证 即便 是 以 MongoDB 目 
前 的 表现 ， 也 至 少 够 项 目 发 展 一 年 。 我 懒得 想 太 远 。 斐 观 地 说 ， 谁 知道 一 年 后 我 的 
项 目 是 否 还 存在 呢 ? 乐观 地 想 ， 到 时 候 MongoDB 一 定 发 展 得 更 好 了 吧 ! 


回头 看 来 ，MongoDB 的 发 展 势 头 有 增 无 减 ， 官 方 网 站 上 的 “案例 ”数量 也 有 了 成 
倍增 长 ， 可 谓 是 如 今 最 热门 的 NoSQL 产品 之 一 。 我 想 这 也 和 它 的 易 用 性 不 无 关系 ， 
产品 越 是 易 用 ， 则 越 会 有 人 用 ， 于 是 越 会 有 更 多 人 投入 ， 人 也 就 越 不 容易 失败 。 


当然 ，MongoDB 的 缺点 也 很 明显 ， 例 如 它 对 程序 员 十 分 友好 ， 却 对 系统 管理 员 是 
个 考验 。 我 之 前 在 微 博 上 开玩笑 地 说 :“MongoDB 的 系统 管理 员 上 辈子 是 折 惨 的 天 
使 ， 他 们 牺牲 上 自己， 方便 整个 团队 。 目前 MongoDB 在 系统 维护 方面 依旧 缺少 业界 
实践 ， 往 往 只 能 靠 系 统管 理 员 自行 摸索 。 


看 到 这 儿 ， 您 可 能 会 觉得 这 不 像 是 一 本 书 的 推荐 或 是 序 。 但 我 倒 沉 得， 其 实 上 面 
这 些 文字 正好 可 以 用 来 概括 本 书 的 内 容 : 与 其 说 它 是 一 本 写 给 MongoDB 系统 管 
理 员 的 书 ， 更 不 如 说 是 面向 “使 用 MongoDB 的 程序 员 ”。 这 本 书 细致 地 介绍 了 
MongoDB 使 用 的 方方面面 ， 我 想 作 为 MongoDB 程序 员 的 入 门 书籍 及 案头 手册 是 十 
分 合适 的 一 一 假如 您 像 我 一 样 觉得 官方 文档 缺乏 条 理性 ， 不 易于 阅读 的 话 。 


盛大 创新 院 研究 员 赵 动 
2011 年 4 月 
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10 年 前 ， 没 人 能 预见 互联 网 的 发 展 给 关系 型 数据 库 带 来 如 此 多 的 挑战 。 我 在 这 个 时 
期 亲身 经 历 了 在 快速 发 展 的 大 型 互联 网 公司 应 用 MySQL 的 过 程 。 开 始 时 只 有 很 少 
的 数据 ， 一 台 服 务 器 就 可 以 了 。 然 后 就 得 建立 备份 ， 以 便 应 对 大 量 的 读 取 和 不 时 的 
宕 机 。 用 不 了 多 长 时 间 ， 就 得 加 一 个 缓存 层 ， 调 整 所 有 的 查询 ， 投 入 更 多 的 硬件 。 


最 后 ， 你 会 发 现 自己 需要 将 数据 切 分 到 多 个 集群 上 ， 并 重新 构建 大 量 的 应 用 逻辑 以 
适应 这 种 切 分 。 之 后 不 入 ， 你 又 会 发 现 被 目 己 数 月 前 设计 的 数据 库 结构 限制 住 了 。 


怎么 会 呢 ? 这 是 因为 集群 中 大 量 的 数据 需要 更 改 模式 ， 会 花费 很 长 时 间 ， 也 需要 
DBA 投入 相当 多 的 宝贵 时 间 。 在 代码 中 处 理 要 简单 一 些 ， 但 也 需要 小 型 开发 团队 数 
月 的 努力 。 最 后 ， 你 会 不 断 地 拷问 自己 有 设 有 更 好 的 方法 ， 或 者 为 什么 疫 有 在 核心 
数据 库 服务 器 中 内 置 更 多 诸如 此 类 的 功能 呢 。 


为 了 应 对 现在 Web 应 用 的 数据 膨胀 ， 开 源 社 区 像 以 往 一 样 提供 了 太 多 的 “好 方法 ”。 
从 内 存 中 的 键 值 型 存储 到 可 以 使 用 SQL 的 MySQL/InnoDB 变种 等 复杂 方法 ， 无 所 
不 有 。 但 选择 多 了 ， 做 出 正确 的 选择 反而 更 难 了 。 我 自己 就 研究 过 其 中 很 多 种 。 


MongoDB 的 实用 性 着 实 令 人 着 迷 。MongoDB 并 不 去 迎合 所 有 人 的 全 部 需求 。 它 在 
功能 和 复杂 性 之 间 取 得 了 很 好 的 平衡 ， 并 且 将 原先 十 分 复杂 的 任务 大 大 简化 。 也 就 
是 说 ， 它 具备 支撑 今天 主流 Web 应 用 的 关键 功能 : 索引 、 复 制 、 分 片 、 丰 富 的 查询 
语法 ， 特 别 灵 活 的 数据 模型 。 与 此 同时 还 不 牺牲 速度 。 


秉持 MongoDB 自身 的 风格 ， 本 书简 洁 明 快 、 通 俗 易 懂 。MongoDB 新 用 户 先 看 第 1 
章 ， 马 上 就 能 人 门 ， 而 有 经 验 的 用 户 则 会 欣赏 体验 本 书 的 广度 和 权威 性 。 对 于 流行 
的 客户 端 API 和 高 级 的 管理 主题 ， 如 复制 、 备 份 和 分 片 ， 本 书 都 是 权威 参考 。 
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根据 我 最 近 每 天 使 用 MongoDB 的 经 验 ， 我 相信 本 书 会 始终 不 离 我 左右 的 ， 无 论 安 
装 还 是 进行 分 片 或 备份 式 集群 的 产品 化 部 署 ， 它 都 是 我 最 好 的 助手 。 任 何 想 仔 细 研 
究 使 用 MongoDB 的 人 都 需要 这 本 重要 的 参考 书 。 


Craigslist 软件 工程 师 ”Jeremy Zawodny 
2010 年 8 月 
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本 书 的 组 织 结构 


第 1 章 将 简要 讲述 MongoDB 的 背景 : 项 目 创立 原因 、 和 希望 达到 的 目标 、 选 用 它 的 理由 。 第 
2 章 会 接着 介绍 一 些 MongoDB 的 核心 概念 和 术语 ， 还 有 如 何 上手 操 作 数据 库 和 shell 的 内 容 。 


部 署 MongoDB 

接 下 来 的 两 章 会 介绍 MongoDB 开发 者 需要 的 基础 知识 。 第 3 章 介 绍 了 如 何 执行 一 
些 基本 的 写 人 人 操作， 包括 在 不 同安 全 和 速度 等 级 下 的 实现 细节 。 第 4 章 主要 介绍 如 
何 来 查找 文档 和 创建 复杂 的 查询 。 这 一 章 还 包括 如 何 迭 代 结 果 和 其 他 一 些 用 于 结果 
处 理 的 方法 ， 如 排序 、 数 量 限制 和 忽略 。 


进 阶 指南 
之 后 的 三 章 会 深入 探讨 一 些 比 存储 和 检索 数据 更 复杂 的 用 法 。 第 5 章 将 介绍 索引 是 
什么 和 怎么 在 MongoDB 中 使 用 ， 还 介绍 了 用 于 检查 和 修改 索引 的 工具 ， 以 及 索引 
管理 。 第 6 章 介绍 了 多 种 利用 MongoDB 聚集 数据 的 方法 ， 包 括 计 数 、 查 找 唯一 值 、 
文档 分 组 和 MapReduce。 第 7 章 会 对 前 几 章 没有 涉及 的 要 点 做 一 个 补充 ， 如 文件 存 
储 、 服 务 费 端 JavaScript、 数 据 库 命令 和 数据 库 引 用 。 


管理 | | 
接 下 来 的 三 章 编程 的 味道 淡 一 些 ， 侧 重 MongoDB 的 运行 。 第 8 章 讨 论 了 启动 数 
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据 库 的 多 种 选项 ， 监 控 MongoDB 服务 器 和 维护 部 署 的 安全 笑 是 部 柯 对 看 偿 在 以 
MongoDB 中 的 数据 进行 合理 的 数据 备份 也 在 这 章 介 绍 了 。 第 9 章 包 括 如 何 设立 
MongoDB 的 复制 ， 具 体 包 括 配 置 标准 主 从 集群 、 设 置 自 动 故 障 恢 复 。 这 章 还 会 揭 
示 复 制 的 工作 原理 和 调整 选项 。 第 10 章 探 讨 了 如 何 水 平 扩展 MongoDB， 包 括 什么 
是 自动 分 片 、 如 何 设 置 及 其 对 应 用 程序 的 影响 。 

用 MongoDB 开 发 应 用 

第 11 章 会 介绍 几 个 使 用 MongoDB 的 示例 应 有 用， 这些 应 用 是 使 用 Java、PHP、 
Python 和 Ruby 编写 的 。 这 些 例子 展示 了 如 何 将 本 书 前 面 介 绍 的 概念 应 用 到 具体 的 
语言 和 问题 域 中 去 。 

附录 

附录 A 介绍 了 MongoDB 版 本 控制 方案 ， 以 及 如 何在 Windows、OS X 和 Linux 下 安 


装 的 细节 。 附 录 B 介绍 了 MongoDB shell 中 一 些 有 用 的 技巧 和 工具 。 附 录 C 更 详细 
地 介绍 了 MongoDB 的 内 部 工作 原理 : 存储 引擎 、 数 据 格 式 和 MongoDB 传输 协议 。 


本 书 排版 规范 
本 书 使 用 的 排版 规范 如 下 所 示 。 


* 楷体 
用 于 表示 新 的 术语 。 
。 等 宽 字 体 


表示 程序 片段 ， 也 在 段落 中 表示 程序 中 使 用 的 变量 、 国 数 名 、 合 令 行 实用 工具 、 环 
境 变量 、 语 句 和 关键 词 等 元 素 。 


。 等 宽 加 粗 

这 种 字体 表示 用 户 需 要 手动 输入 的 命令 或 者 相应 的 文本 。 

* 等 宽 斜体 人 

用 户 需要 根据 自己 所 提供 的 值 或 由 上 下 文 所 确定 的 值 进行 更 改 的 部 分 。 
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使 用 代码 示例 

让 本 书 助 你 一 辟 之 力 。 也 许 你 要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代码 。 除 非 大 
段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 例 如 ， 无 需 请 求 许可 ， 就 可 以 用 本 
书 中 的 几 段 代码 写成 一 个 程序 。 但 是 销售 或 者 发 布 O'Reilly 图 书 中 代码 的 光盘 则 必 
须 事先 获得 授权 。 引 用 书 中 的 代码 来 回答 问题 也 无 需 授权 。 将 大 段 的 示例 代码 整合 
到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 


我 们 非常 希望 你 能 标明 出 处 ， 但 并 不 强求 。 出 处 一 般 含有 书 名 、 作 者 、 出 版 商 和 
ISBN， 例 如 “MongoDB 权威 指南 ，Kristina Chodorow 和 Michael Dirolf (O’Reilly， 
2010) 版 权 所 有 ，978-1-449-38156-1”。 


如 果 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 取得 联系 ，permissions@oreilly.com 


Safari 在 线 图 书 


Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书馆 。 它 能 够 让 你 非常 轻松 地 搜索 7500 多 种 技 
术 性 和 创新 性 参考 书 以 及 视频 ， 以 便 快速 地 找到 需要 的 答案 。 


订阅 后 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 。 可 以 在 手机 或 其 他 移动 设备 上 
阅读 。 还 能 在 新 书 上 市 之 前 抢先 阅读 ， 也 能 够 看 到 还 在 创作 中 的 书稿 并 向 作者 反馈 
意见 。 复 制 粘贴 代码 示例 、 放 入 收藏 来、 下 载 部 分 章 市 、 标 记 关 键 点 、 做 笔记 其 至 
打印 页 面 等 有 用 的 功能 可 以 市 省 大 量 时 间 。 


这 本 书 也 在 其 中 。 欲 访问 本 书 的 电子 版 ， 或 者 由 O?Reilly 或 其 他 出 版 社 出 版 的 相关 
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阐 介 


MongoDB 是 一 种 强大 、 灵 活 、 可 扩展 的 数据 存储 方式 。 它 扩展 了 关系 型 数据 库 的 
众多 有 用 功能 ， 如 辅助 索引 、 范 围 查询 (range query) 和 排序 。MongoDB 的 功能 非 
带 丰 富 ， 比 如 内 置 的 对 MapReduce 式 聚 合 的 支持 ， 以 及 对 地 理 空 间 索 引 的 支持 。 


要 是 不 能 用 的 话 ， 再 牛 的 技术 也 是 空谈 ，MongoDB 致力 于 容易 上 手 、 便 于 使 用 。 
MongoDB 的 数据 模型 对 开发 者 来 说 非常 友好 ， 配 置 选 项 对 于 管理 员 来 说 也 很 轻松 ， 
并 且 有 驱动 程序 和 数据 库 shell 提供 的 自然 语言 式 的 API。MongoDB 会 为 你 扫除 障 
碍 ， 让 你 关注 编程 本 身 而 不 是 为 存储 数据 烦恼 。 


1.1 富 的 数据 模型 
MongoDB 是 面向 文档 的 数据 库 ， 不 是 关系 型 数据 库 。 放 弃 关 系 模型 的 主要 原因 就 
是 为 了 获得 更 加 方便 的 扩展 性 ， 当 然 还 有 其 他 好 处 。 


基本 的 思路 就 是 将 原来 “ 行 ”(row) 的 概念 换 成 更 加 灵活 的 “文档 ”(document) 模 
型 。 面 同文 档 的 方式 可 以 将 文档 或 者 数组 内 嵌 进 来 ， 所 以 用 一 条 记录 就 可 以 表示 非常 
复杂 的 层次 关系 。 使 用 面向 对 象 语言 的 开发 者 恰恰 这 么 看 待 数 据 ， 所 以 感觉 非常 自然 。 


MongoDB 没有 模式 : 文档 的 键 不 会 事先 定义 也 不 会 固定 不 变 。 由 于 没有 模式 需要 
更 改 ， 通 常 不 需要 迁移 大 量 数据 。 不 必 将 所 有 数据 都 放 到 一 个 模子 里 面 ， 应 用 层 可 
以 处 理 新 增 或 者 丢失 的 键 。 这 样 开发 者 可 以 非常 容易 地 变更 数据 模型 。 


1.2 ”容易 扩展 
应 用 数据 集 的 大 小 在 飞速 增加 。 传 感 器 技术 的 发 展 、 带 宽 的 增加 ， 以 及 可 连接 到 因 
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特 网 的 手持 设备 的 普及 使 得 当下 即便 很 小 的 应 用 也 要 存储 大 量 数据 ， 量 大 到 很 多 数 
据 库 都 应 付 不 来 。T 级 别 的 数据 原来 是 闻所未闻 的 ， 现 在 已 经 司空 见 惯 了 。 


由 于 开发 者 要 存储 的 数据 不 断 增 长 ， 他 们 面临 一 个 非常 困难 的 选择 : 该 如 何 扩展 
他 们 的 数据 库 ? 升级 呢 〈 买 台 更 好 的 机 器 ) ， 还 是 扩展 呢 (将 数据 分 散 到 很 多 机 器 
上 ) ? 升级 通常 是 最 省 力气 的 做 法 ， 但 是 问题 也 显而易见 : 大 型 机 一 般 都 非常 昂贵 ， 
最 后 达到 了 物理 极限 的 话 花 多 少 钱 都 买 不 到 更 好 的 机 器 。 对 于 大 多 数 人 希望 构建 的 
大 型 Web 应 用 来 说 ， 这 样 做 既 不 现实 也 不 划算 。 而 扩展 就 不 同 了 ， 不 但 经 济 而 且 还 
能 持续 添加 : 想 要 增加 存储 空间 或 者 提升 性 能 ， 只 需要 买 台 一 般 的 服务 如 加 入 集群 
就 好 了 。 


MongoDB 从 最 初 设 计 的 时 候 就 考虑 到 了 扩展 的 问题 。 它 所 采用 的 面 癌 文档 的 数据 
模型 使 其 可 以 自动 在 多 台 服 务 器 之 间 分 割 数 据 。 它 还 可 以 平衡 集群 的 数据 和 人 负载 ， 
自动 重 排 文档 。 这 样 开 发 者 就 可 以 专注 于 编写 应 用 ， 而 不 是 考虑 如 何 扩展 。 要 是 需 
要 更 大 的 容量 ， 只 需 在 集群 中 添加 新 机 器 ， 然 后 让 数据 库 来 处 理 剩 下 的 事 。 


1.3 ”丰富 的 功能 
很 难 界定 什么 才 算 作 一 个 功能 : 上 面 提 及 的 算是 功能 吗 ? 关系 型 数据 库 做 不 到 的 算 
吗 ? 都 可 以 说 Memcached 做 不 到 的 呢 ? 其 他 面向 文档 的 数据 库 做 不 到 的 又 如 何 呢 ? 
但 无 论 界 定 的 标准 是 什么 ， 都 可 以 说 MongoDB 拥有 一 些 真正 独特 的 、 好 用 的 工具 ， 
其 他 方案 不 具备 或 不 完全 具备 这 些 工 具 。 

。 索引 

MongoDB 支持 通用 辅助 索引 ， 能 进行 多 种 快速 查询 ， 也 提供 唯一 的 、 复 合 的 

和 地 理 空间 索引 能 

。 存储 JavaScript 

开发 人 员 不 必 使 用 存储 过 程 了 ， 可 以 直接 在 服务 端 存 取 JavaScript 的 国 数 和 值 。 

。 ”聚合 

MongoDB 支持 MapReduce 和 其 他 聚合 工具 。 

。 固定 集合 

集合 的 大 小 是 有 上 限 的 ， 这 对 某 些 类 型 的 数据 (比如 日 志 ) 特别 有 用 。 


。 文件 存储 
MongoDB 支持 用 一 种 容易 使 用 的 协议 存储 大 型 文件 和 文件 的 元 数据 。 


有 些 关系 型 数据 库 的 常见 功能 MongoDB 并 不 有 具备， 比如 联接 (join) 和 复杂 的 多 
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行事 务 。 这 个 架构 上 的 考虑 是 为 了 提高 扩展 性 ， 因 为 这 两 个 功能 实在 很 难 在 一 个 分 
布 式 系统 上 实现 。 


1.4 不 牺牲 速度 


和 卓越 的 性 能 是 MongoDB 的 主要 目标 ， 也 极 大 地 影响 了 设计 上 的 很 多 决定 。 
MongoDB 使 用 MongoDB 传输 协议 作为 与 服务 器 交互 的 主要 方式 (与 之 对 应 的 协 
议 需要 更 多 的 开销 ， 如 HTTP/REST)。 它 对 文档 进行 动态 填充 ， 预 分 配 数据 文件 ， 
用 空间 换取 性 能 的 稳定 。 默 认 的 存储 引擎 中 使 用 了 内 存 映 射 文件 ， 将 内 存 管理 工作 
交 给 操作 系统 去 处 理 。 动 态 查 询 优 化 器 会 “ 记 住 ”执行 查询 最 高 效 的 方式 。 总 之 ， 
MongoDB 在 各 个 方面 都 充分 考虑 了 性 能 。 


虽然 MongoDB 功能 强大 ， 尽 量 保持 关系 型 数据 库 的 众多 特性 ,但 是 它 并 不 是 要 具 
和 鱼 所 有 的 关系 型 数据 库 的 功能 。 它 尽 可 能 地 将 服务 器 端 处 理 罗 辑 交 给 客户 端 (由 驱 
动 程序 或 者 用 户 的 应 用 程序 处 理 )。 这 样 精简 的 设计 使 得 MongoDB 获得 了 非常 好 的 


性 能 。 


1.5 简便 的 管理 


MongoDB 尽量 让 服务 器 自治 来 简化 数据 库 的 管理 。 除 了 启动 数据 库 服务 器 之 外 ， 
几乎 没有 什么 必要 的 管理 操作 。 如 果 主 服务 器 挂 掉 了 ，MongoDB 会 自动 切换 到 备 
份 服务 器 上 ， 并 且 将 备份 服务 絮 提 升 为 活跃 服务 器 。 在 分 布 式 环境 下 ， 和 集群 只 需要 
知道 有 新 增加 的 节点 ， 就 会 自动 集成 和 配置 新 节点 。 


MongoDB 的 管理 理念 就 是 尽 可 能 地 让 服务 器 自动 配置 ， 让 用 户 能 在 需要 的 时 候 调 
整 设置 (但 不 强制 )。 


1.6 ”其 他 内 容 


在 本 书 中 ， 我 们 还 会 花 些 时 间 追 湖 一 下 在 开发 MongoDB 的 过 程 中 一 些 决定 的 原因 
和 和 动机， 希望 通过 这 种 方式 来 阐释 MongoDB 的 理念 。 毕 竟 ，MongoDB 的 愿景 是 对 
目 身 最 好 的 诠释 一 一 建立 一 种 灵 许 、 高 效 、 易 于 扩展 、 功 能 完备 的 数据 库 。 
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入 门 


MongoDB 非常 强大 ， 同 时 也 很 容易 上 手 。 本 章 会 介绍 一 些 MongoDB 的 基本 概念 。 


。 文档 是 MongoDB 中 数据 的 基本 单元 ， 非 常 类 似 于 关系 数据 库 管 理 系统 中 的 行 (但 
是 比 行 要 复杂 得 多 )。 

。 类 似 地 ， 集 合 可 以 被 看 做 是 没有 模式 的 表 。 

。 MongoDB 的 单个 实例 可 以 容纳 多 个 独立 的 数据 库 ， 每 一 个 都 有 自己 的 集合 和 权限 。 

MongoDB 自 带 简洁 但 功能 强大 的 JavaScript shell， 这 个 工具 对 于 管理 MongoDB 实 

例 和 操作 数据 作用 非常 大 。 

。 每 一 个 文档 都 有 一 个 特殊 的 键 "iq"， 它 在 文档 所 处 的 集合 中 是 唯一 的 。 


2.1 文档 


文档 是 MongoDB 的 核心 概念 。 多 个 键 及 其 关联 的 值 有 序 地 放置 在 一 起 便 是 文档 。 
每 种 编程 语言 表示 文档 的 方法 不 太一 样 ， 但 大 多 数 编程 语言 都 有 相通 的 一 种 数据 结 
构 ， 比 如 映射 、 散 列 或 字典 。 例 如 ， 在 JavaScript 里 面 ， 文 档 表 示 为 对 象 ; 


{"greeting" : "Hello, world!")} 


这 个 文档 只 有 一 个 键 "greeting"*， 其 对 应 的 值 为 "Hello， world!"。 绝 大 多 数 
情况 下 ， 文 档 会 比 这 个 简单 的 例子 复杂 得 多 ， 经 常会 包含 多 个 键 / 值 对 : 


{"greeting" : "Hello, world!", "foo" : 3} 
这 个 例子 很 好 地 解释 了 几 个 十 分 重要 的 概念 。 
。 文档 中 的 键 / 值 对 是 有 序 的 ， 上 面 的 文档 和 下 面 的 文档 是 完全 不 同 的 : 
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{"foo" : 3, "greeting" : *Hello, world!"} 
Tn 通常 文档 中 键 的 顺序 并 不 重要 。 实 际 上 ， 有 些 编程 语言 默认 对 文档 的 呈现 
by 根本 就 不 顾忌 顺序 如 Python 的 字典 ，Perl 和 Ruby 1.8 中 的 散 列 )。 这 些 
i 语言 的 驱动 包含 特殊 的 机 制 ， 会 在 少数 必要 的 情况 下 指定 文档 的 排序 。 本 
书 会 时 常 提 到 这 些 情况 。 


。 文档 中 的 值 不 仅 可 以 是 在 双 引 号 里 面 的 字符 串 ， 还 可 以 是 其 他 几 种 数据 类 型 (甚至 
可 以 是 整个 典 入 的 文档 , 详 见 2.6.5 节 )。 这 个 例子 中 ngreeting" 的 值 是 个 字符 串 ， 
而 "foo 的 值 是 个 整数 。 


文档 的 键 是 字符 串 。 除 了 少数 例外 情况 ， 键 可 以 使 用 任意 UTEF-8 字符 。 


。 和 键 不 能 含有 \0 ( 空 字符 )。 这 个 字符 用 来 表示 键 的 结尾 。 

。 .和 $ 有 特别 的 意义 ， 只 有 在 特定 环境 下 才能 使 用 ， 后 面 的 章节 会 详细 说 明 。 通 常 
来 说 就 是 被 保留 了 ， 使 用 不 当 的 话 ， 驱 动 程序 会 提示 。 

。 以 下 划 线 “_” 开 头 的 键 是 保留 的 ， 虽 然 这 个 并 不 是 严格 要 求 的 。 


MongoDB 不 但 区 分 类 型 ， 也 区 分 大 小 写 。 例 如 ， 下 面 的 两 个 文档 是 不 同 的 : 


{"foo" : 3} 
{aEoon 。 n3n} 
以 下 的 文档 也 是 不 同 的 : 
{"foo” : 3} 
{"Foo" : 3} 


还 有 一 个 非常 重要 的 事项 需要 注意 ，MongoDB 的 文档 不 能 有 重复 的 键 。 例 如 ， 下 
面 的 文档 是 非法 的 : 


{"greetingn : "Hello, world!'", "greeting" : "Hello, MongoDB!"} 
2.2 集合 
集合 就 是 一 组 文档 。 如 果 说 MongoDB 中 的 文档 类 似 于 关系 型 数据 库 中 的 行 ， 那 么 
集合 就 如 同 表 。 


2.2.1 无 模式 


集合 十 无 模式 的 。 这 意味 着 一 个 集合 里 面 的 文档 可 以 是 各 式 各 样 的 。 例 如 ， 下 面 两 
个 文档 可 以 存在 于 同一 个 集合 里 面 : 
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{"greeting" : "Hello, world!") 

{"fo0" : 5} 
注意 ， 上 面 的 文档 不 光 是 值 的 类 型 不 同 (字符 串 和 整数 )， 它 们 的 键 也 是 完全 不 一 样 
的 。 因 为 集合 里 面 可 以 放置 任何 文档 ， 随 之 而 来 的 一 个 问题 是 :“ 还 有 必要 使 用 多 个 
集合 吗 ? ” 问 得 好 ! 要 是 没 必 要 对 各 种 文档 划分 模式 ， 那 么 为 什么 还 要 使 用 多 个 集 
合 呢 ? 下面 是 一 些 理由 。 


。 把 各 种 各 样 的 文档 都 混在 一 个 集合 里 面 ,无 论 对 于 开发 者 还 是 管理 员 来 说 都 是 于 梦 。 
开发 者 要 么 确保 每 次 查询 只 返回 需要 的 文档 种 类 ， 要 么 让 执行 查询 的 应 用 程序 来 处 
理 所 有 不 同类 型 的 文档 。 如 果 查 询 博客 文章 还 要 剔除 那些 含有 作者 数据 的 文档 ， 就 
很 令 人 恼火 。 

。 在 一 个 集合 里 面 查询 特定 类 型 的 文档 在 速度 上 也 很 不 划算 ， 分 开 做 多 个 集合 要 快 得 
多 。 例 如 ,集合 里 面 有 个 标注 类 型 的 键 , 现 在 查询 其 值 为 “skim 、whole 或 “chunky 
monkey” 的 文档 ,就 会 非常 慢 。 如 果 按 照 名 字 分 割 成 3 个 集合 的 话 , 查 询 会 快 很 多 ( 参 
见 “ 子 集合 ”部 分 ) 

。 把 同 种 类 型 的 文档 放 在 一 个 集合 里 ， 这 样 数据 会 更 加 集中 。 从 只 含有 博客 文章 的 

集合 里 面 查 询 几 篇 文章 ,会 比 从 含有 文章 和 作者 数据 的 集合 里 面 查 出 几 篇 文章 少 

消耗 磁盘 寻 道 操作 。 

当 创建 索引 的 时 候 ， 文 档 会 有 附加 的 结构 〈 尤 其 是 有 唯一 索引 的 时 候 )。 索 引 是 按 

照 集 合 来 定义 的 。 把 同 种 类 型 的 文档 放 人 同一 个 集合 里 面 ， 可 以 使 索引 更 加 有 效 。 


你 已 经 看 到 了 ， 的 确 有 很 多 理由 创建 一 个 模式 把 相关 类 型 的 文档 规整 到 一 起 。 但 
MongoDB 对 此 还 是 不 做 强制 要 求 ， 让 开发 者 更 有 灵活 性 。 


2.2.2 命名 
我 们 可 以 通过 名 字 来 标识 集合 。 集 合 名 可 以 是 满足 下 列 条 件 的 任意 UTF-8 字符 串 。 


。 集合 名 不 能 是 空 字符 串 ""。 

。 集合 名 不 能 含有 \0 字符 ( 空 字 符 )， 这 个 字符 表示 集合 名 的 结尾 。 

。 集合 名 不 能 以 “system.” 开 头 ， 这 是 为 系统 集合 保留 的 前 级 。 例 如 system.users 这 个 集 
合 保存 着 数据 库 的 用 户 信 息 , system.namespaces 集合 保存 着 所 有 数据 库 集合 的 信息 。 

。 用 户 创 建 的 集合 名 字 不 能 含有 保留 字符 $。 有 些 驱 动 程序 的 确 支持 在 集合 名 里 面包 
舍 $， 这 是 因为 茶 些 系统 生成 的 集合 中 包含 该 字符 。 除 非 你 要 访问 这 种 系统 创建 的 
集合 ， 否 则 千 万 不 要 在 名 字 里 出 现 $。 


子 集合 
组 织 集合 的 一 种 惯例 是 使 用 “.” 字 符 分 开 的 按 命名 空间 划分 的 子 集合 。 例 如 ， 一 个 
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带 有 博客 功能 的 应 用 可 能 包含 两 个 集合 ， 分 别 是 blog.posts 和 blog.authors。 
这 样 做 的 目的 只 是 为 了 使 组 织 结构 更 好 些 ， 也 就 是 说 blog 这 个 集合 (这 里 根本 就 
不 需要 存在 ) 及 其 子 集合 没有 任何 关系 。 


虽然 子 集合 没有 特别 的 地 方 ， 但 还 是 很 有 用 ， 很 多 MongoDB 工具 中 都 包含 子 集合 。 


。 GridFS 是 一 种 存储 大 文件 的 协议 ， 使 用 子 集合 来 存储 文件 的 元 数据 ， 这 样 就 与 内 
容 块 分 开 了 (关于 GridFS 详 见 第 7 章 )。 


。 MongoDB 的 Web 控制 台 通 过 子 集 合 的 方式 将 数据 组 织 在 DBTOP 部 分 (关于 管理 
详 见 第 8 章 )。 


。 绝 大 多 数 驱 动 程序 都 提供 语法 糖 ， 为 访 占 指定 集合 的 子 集合 提供 方便 。 例 如 ， 在 数 
据 库 shell 里 面 , ab .blog 代表 blog 集合 , ab .blog.posts 代表 blog .posts 集合 。 


在 MongoDB 中 使 用 子 集合 来 组 织 数 据 是 很 好 的 方法 ， 在 此 强烈 推荐 。 


2.3 数据 库 


MongoDB 中 多 个 文档 组 成 集合 ， 同 样 多 个 集合 可 以 组 成 数据 库 。 一 个 MongoDB 实 
例 可 以 承载 多 个 数据 库 ， 它 们 之 间 可 视 为 完全 独立 的 。 每 个 数据 库 都 有 独立 的 权限 
控制 ， 即 便 是 在 磁盘 上 ， 不同 的 数据 库 也 放置 在 不 同 的 文件 中 。 将 一 个 应 用 的 所 有 
数据 都 存储 在 同一 个 数据 库 中 的 做 法 就 很 好 。 要 想 在 同一 个 MongoDB 服务 器 上 存 
放 多 个 应 用 或 者 用 户 的 数据 ， 就 要 使 用 不 同 的 数据 库 了。 


和 集合 一 样 ， 数 据 库 也 通过 名 字 来 标识 。 数 据 库 名 可 以 是 满足 以 下 条 件 的 任意 
UTF-8 字符 串 。 

。 不 能 是 空 字符 串 〈"") 。 

。 不 得 含有 '' (空格 )、. 、$ 、/、\ 和 \0 ( 空 字 符 )。 


。 应 全 部 小 写 。 
。 最 多 64 字 节 。 


要 记 住 一 点 ， 数 据 库 名 最 终 会 变 成 文件 系统 里 的 文件 ， 这 也 就 是 有 如 此 多 限制 的 原因 。 


有 一 些 数据 库 名 是 保留 的 ， 可 以 直接 访问 这 些 有 特殊 作用 的 数据 库 。 这 些 数据 库 如 
下 所 示 。 

e。 admin 

从 权限 的 角度 来 看 ， 这 是 “root” 数 据 库 。 要 是 将 一 个 用 户 添加 到 这 个 数据 库 ， 
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这 个 用 户 自动 继承 所 有 数据 库 的 权限 。 一 些 特定 的 服务 器 端 命令 也 只 能 从 这 个 
数据 库 运行 ， 比 如 列 出 所 有 的 数据 库 或 者 关闭 服务 器 


。 local 
这 个 数据 永远 不 会 被 复制 ， 可 以 用 来 存储 限于 本 地 单 台 服务 器 的 任意 集合 ( 关 
于 复制 和 本 地 数据 库 详 见 第 9 章 ) 


。 config 
当 Mongo 用 于 分 片 设置 时 (参见 第 10 章 ) ，config 数据 库 在 内 部 使 用 ， 用 于 保 
存 分 片 的 相关 信息 。 


把 数据 库 的 名 字 放 到 集合 名 前 面 ， 得 到 就 是 集合 的 完全 限定 名 ， 称 为 命名 空间 。 例 如 ， 

如 果 你 在 cms 数据 库 中 使 用 blog .posts 集合 ， 那 么 这 个 集合 的 命名 空 间 就 是 cms . 

po posts。 命 名 空间 的 长 度 不 得 超过 121 字 节 ， 在 实际 使 用 当中 应 该 小 于 100 字 
。 关 于 MongoDB 中 集合 的 命名 空间 和 内 部 表示 的 更 多 信息 ， 可 以 参考 附录 C 


2.4 局 动 MongoDB 


MongoDB 一 般 作 为 网 络 服 器 务 来 运行 ， 客 户 端 可 以 连接 到 该 服务 器 并 执行 操作 。 和 村 
启动 该 服务 器 ， 需 要 运行 mongod 可 执行 文件 : : 


$ ./mongogd 

. /mongod --help for help and startup options 

Sun Mar 28 12:31:20 Mongo DB : starting : pid = 44978 port = 27017 
dbpath = /data/db/ master = 0 slave = 0 64-bit 

Sun Mar 28 12:31:20 Gb version vi.5.0-pre-, pdfile version 4.5 

Sun Mar 28 12:31:20 git version: 

Sun Mar 28 12:31:20 sys info: .. 

Sun Mar 28 12:31:20 waiting for connections on port 27017 

Sun Mar 28 12:31:20 web admin interface listening on port 28017 


或 者 在 Windows 下 ， 这 样 操 作 : 


$ mongod.exe 


天 于 安装 MongoDB 的 详细 信息 ， 参 见 附录 A。 





Ta 
data\db\)， 并 使 用 27017 端口 。 如 果 数 据 目 录 不 存在 或 者 不 可 写 ， 服 务 器 会 启动 失 
败 。 所 以 在 启动 MongoDB 前 ， 创 建 数 据 目 录 (比如 mkdir -p /data/db) ， 并 确保 
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对 该 目录 有 写 权 限 是 很 重要 的 。 如 果 端 口 被 占用 ， 启动 也 会 网 必 - 逢 二 由 二 
MongoDB 实例 已 经 在 运行 了 。 


服务 颖 会 打印 版 本 和 系统 信息 ， 然 后 等 待 连接 。 上 默认 情况 下 ，MongoDB 监听 27017 端口 。 


mongod 还 会 启动 一 个 非常 基本 的 HTTP 服务 器 ， 监 听 数 字 比 主 端口 号 高 1000 的 端 
口 ， 也 就 是 28017 端口 。 这 意味 着 你 可 以 通过 浏览 器 访问 http://localhost:28017 来 
获取 数据 库 的 管理 信息 。 


在 启动 服务 器 的 shell 下 可 以 键入 Ctrl-C 来 完全 地 停止 mongod 的 运行 。 


想 要 了 解 启 动 和 停止 MongoDB 的 更 多 细节 ， 请 参见 8.1 节 ， 想 要 了 解 管 理 
接口 的 更 多 内 容 ， 可 以 参 8.2.1 节 。 





2.5 MongoDB shell 


MongoDB 自 带 一 个 JavaScript shell， 可 以 从 命令 行 与 MongoDB 实例 交互 。 这 个 
shell 非 第 有 用 ， 通 过 它 可 以 执行 管理 操作 、 检 查 运行 实例 ， 亦 或 做 其 他 尝试 。 这 个 
mongo shell 对 于 使 用 MongoDB 来 说 是 至 关 重要 的 工具 ， 本 书后 面 也 会 经 常 使 用 这 
个 工具 


2.5.1 运行 shell 
运行 mongo 局 动 shell: 


$§$ ./nmongo 

MongoDB shell version: 1.6.0 
url: test 

connecting to: test 

type "help" for help 


区 


shell 会 在 启动 时 自动 连接 MongoDB 服务 器 ， 所 以 要 确保 在 使 用 shel 之 前 启动 mongod。 


shell 是 功能 完备 的 JavaScript 解释 器 ， 可 以 运行 任何 JavaScript 程序 。 为 了 证 明 这 
一 点 ， 我 们 运行 几 个 简单 的 数学 运算 : 


> =-200 
200 

> XX/ 5 
40 


还 可 以 充分 利用 JavaScript 的 标准 库 。 
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> Math.sin{Math.PI / 2):; 

1 

> new Date{(*2010/1/1"); 

nFri Jan 01 2010 00:00:00 GMT-0500 {EST}" 

> "Hello, Worldi".replace ("World", "MongoDB"*),; 
Hello, MongoDB! 


也 可 以 定义 和 调用 JavaScript 图 数 


> function factorial (n) { 
. if {nn <= 1) return 1; 
... return n * factorial(n - 1);，} 


> factorial{(5).; 
120 


注意 ， 可 以 使 用 多 行 命令 。 这 个 shell 会 检测 输入 的 JavaScript 语句 是 否 写 完 ， 如 疫 
写 完 还 可 以 在 下 一 行 接着 写 。 
2.5.2 MongoDB 客 户 端 


虽然 能 运行 任意 JavaScript 程序 很 酷 ， 但 shel 的 真正 威力 还 在 于 它 是 一 个 独立 的 Mongo- 
DB 客户 端 。 开 启 的 时 候 ，shel 会 连 到 MongoDB 服务 器 的 test 数据 库 ， 并 将 这 个 数据 
库 连 接 赋值 给 全 局 变量 db。 这 个 变量 是 通过 shell 访问 MongoDB 的 主要 入 口 点 。 


shell 还 有 些 非 JavaScript 语法 的 扩展 ， 是 为 了 方便 习惯 于 SQL shell 的 用 户 而 添加 
的 。 这 些 扩展 并 不 提供 额外 的 功能 ， 但 它们 是 很 棒 的 语法 糖 。 例 如 ， 最 重要 的 操作 
之 一 就 是 选择 要 使 用 的 数据 库 : 


> USe foobar 
switched to db foobar 


现在 如 果 看 看 db ， 会 发 现 其 指 癌 foobar 数据 库 : 


> db 
foobar 


因为 这 是 一 个 JavaScript shell， 所 以 键入 一 个 变量 会 将 变量 的 值 转换 为 字符 囊 (这 
里 就 是 数据 库 名 ) 并 打印 出 来 。 


可 以 通过 db 变量 来 访问 其 中 的 集合 。 例 如 dp .baz 返回 当前 数据 库 的 baz 集合 。 既 然 
现在 可 以 在 shell 中 访问 集合 ， 那 么 基本 上 就 可 以 执行 几乎 所 有 的 数据 库 操 作 了 。 


2.5.3 _ shell 中 的 基本 操作 
在 shell 查看 操作 数据 会 用 到 4 个 基本 操作 : 创建 、 读 取 、 更 新 和 删除 (CRUD)。 
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1. 创建 


insert 畏 数 添加 一 个 文档 到 集合 里 面 。 例 如 ， 假 设 要 存储 一 篇 博客 文章 。 首 先 ， 
创建 一 个 局 部 变量 post， 内 容 是 代表 文档 的 JavaScript 对 象 。 里 面 会 有 "title"， 


"content" 和 "qdate" (发 表 日 期 ) 几 个 键 。 、 
> post = {"title" : "My Blog Post", 
... "Content” : "Here'’'s my blog post.’”, 
... "date" : new Date{()} 
{ 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 
"date" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST) 9" 


} 


这 个 对 象 是 个 有 效 的 MongoDB 文档 ， 所 以 可 以 用 insert 方法 将 其 保存 到 blog 集 
合 中 : 


> db.blog.insert (post) 


这 篇 文章 已 经 被 存 到 数据 库 里 面 了 。 可 以 调用 集合 的 fina 方法 来 查看 一 下 : 


> qdqb.blog.Eflina'() 


{ 
" id" : ObjectIid{('"4b23c3ca7525f35f94bé60a2d"),， 
title" : MY Blog Post", 
content" : "Here’'s my blog post.", 
ndate" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 


} 
除了 我 们 输入 的 键 / 值 对 都 完整 地 被 保存 下 来 ,还 有 一 个 额外 添加 的 键 " id。 本 
章 的 最 后 会 解释 ”ia" 突然 出 现 的 原因 。 


2. 读 取 
find 会 返回 集合 里 面 所 有 的 文档 。 者 只 是 想 查 看 一 个 文档 ， 可 以 用 findone: 


> db.blog.findone{) 


» id" : ObjectIid("4b23c3ca7525f35f94bé0a2d"), 
ntitle"” : "My Blog Post", 

Hcontent'* : "Here's my blog post.", 

"date™" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 


} 


find 和 findone 可 以 接受 查询 文档 形式 的 限定 条 件 。 这 将 通过 查询 限制 匹配 的 文 
档 。 使 用 finda 时 ，shell 自动 显示 最 多 20 个 匹配 的 文档 ， 但 可 以 获取 更 多 文档 。 关 
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于 查询 的 更 多 内 容 ， 参 见 第 4 章 。 


3. 更 新 

如 果 要 更 改 博客 文章 ， 就 要 用 到 update 了 。update 接受 (至 少 ) 两 个 参数 ， 第 一 
个 是 要 更 新 文档 的 限定 条 件 ， 第 二 个 是 新 的 文档 。 假 设 决 定 给 我 们 先前 写 的 文章 增 
加 评论 内 容 ， 则 需要 增加 一 个 新 的 键 ， 对 应 的 值 是 存放 评论 的 数组 。 

第 一 步 修 改变 量 post, 增加 "comments" 键 : 


> post.comments = [] 


[ ] 
然后 执行 update 操作 ， 用 新 版 本 的 文档 替换 标题 为 “My Blog Post 的 文章 : 
> db.blog.update({title : "My Blog Post"}, post) 


文档 已 经 有 了 "comments"' 键 。 再 用 find 查看 一 下 ， 可 以 看 到 新 的 键 : 
> Gb.blog.findl() 


" _ id" : ObjectId("4b23c3ca7525f35f94b60a2d"),， 
"title" : "My Bleg Post", 

"content" : "Here's my blog post.", 

"date" ;: "Sat Dec 12 2009 11:23:21 GMT-0500 {EST)})" 
"comments" : [ ] 


} 


4. 删除 

remove 用 来 从 数据 库 中 永久 性 地 删除 文档 。 在 不 使 用 参数 进行 调用 的 情况 下 ， 它 
会 删除 一 个 集合 内 的 所 有 文档 。 它 也 可 以 接受 一 个 文档 以 指定 限定 条 件 。 例 如 ， 下 
面 的 命令 会 删除 我 们 刚刚 创建 的 文章 : 


> db.blog.remove({title : "My Blog Post"}) 


集合 现在 又 是 空 的 了 。 


2.5.4 使 用 shell 的 宅 门 


由 于 mongo 是 个 JavaScript shell， 通 过 在 线 查 看 JavaScript 的 文档 能 获得 很 多 帮助 。 
shell 本 身 内 置 了 帮助 文档 ， 可 以 通过 help 命令 查看 。 


> help 
HELP 
Show dbs show database names 
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show collections show collections in current database 

show users Show users in current database 

Show profile Show recent system.profile entries w. time >= lms 
USe <db name> Set current database to <db name> 
db.helpt) help on DB methods 

db .foo.help () help on collection methods 

db .foo.finad!() list objects in collection foo 

db.foo.find( {a:1}) list objects in foo where a == 1 

it result of the last line evaluated 


使 用 ab .help () 可 以 查看 数据 库 级 别 的 命令 的 帮助 ， 集 合 的 相关 帮助 可 以 通过 dpb. 
foo.help() 来 查看 。 


有 个 了 解 国 数 功用 的 技巧 ， 就 是 在 输入 的 时 候 不 要 输 括 号 。 这 样 就 会 显示 该 函数 的 
JavaScript 源 人 代码。 例如， 如 果 想 看 看 update 的 机 理 ， 或 者 就 是 为 了 看 看 参数 顺 
序 ， 可 以 这 么 做 : 
> db.foo.update 
function (query, obj, upsert, multi) 1 
assert (guery, "need a query'),; 
assert (obj, "need an object").; 
this. validateObject (obj); 
this. mongo.update (this. fullName, query, obj, 


upsert ? true : false, multi ? true : false); 


} 


要 查看 shell 提供 的 所 有 目 动 生成 的 JavaScript 国 数 API 文档 ， 可 访问 http://api.mon- 
godb.org/js。 


浆 脚 的 集合 名 

使 用 ab. 集合 名 的 方式 来 访问 集合 一 般 不 会 有 问题 ， 但 如 果 集 合 名 恰好 是 数据 库 类 
的 一 个 属性 就 有 问题 了 。 例 如 ， 要 访问 version 这 个 集合 ， 使 用 db .version 就 
不 行 ， 因 为 ab .version 是 个 数据 库 困 数 ( 它 返 回 正在 运行 的 MongoDB 服务 器 的 
版 本 )。 


> db.version 
function () 1 
return this.serverBuildIinfo{}) .version; 


当 JavaScript 只 有 在 ab 中 找 不 到 指定 的 属性 时 ， 才 会 将 其 作为 集合 返回 。 当 有 属性 
与 目标 集合 同名 时 ， 可 以 使 用 getcollection 国 数 : 


> aqb .getCollectiontnversionn ) ; 
test .version 


要 查看 名 称 中 含有 无 效 JavaScript 字符 的 集合 ， 这 个 函数 也 可 以 派 上 用 场 。 比 如 foo- 
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bar 是 个 有 效 的 集合 名 ， 但 是 在 JavaScript 中 就 变 成 了 变量 相 减 了 。 通 过 db .get- 
Collection ("foo-bax") 可 以 得 到 foo-bax 集合 。 


在 JavaScript 中 ，x.y 与 x['y'] 完全 等 价 。 这 就 意味 着 不 但 可 以 直 呼 其 名 ， 也 可 
以 使 用 变量 来 访问 子 集合 。 也 就 是 说 ， 当 需要 对 plog 的 每 个 子 集合 执行 操作 时 ， 只 需 
要 像 下 面 这 样 迭 代 就 好 了 : 


var collections = ['posts", "comments", "authors'"],; 


for {i in collections) { 
doSstuff {db .blog[collections [i]]); 


} 
而 不 是 使 用 下 面 这 种 笨 笨 的 写法 : 


doStuff (db .blog.posts);} 
doSstuff (db.blog.comments):; 
doSstuff (db.blog.authors); 


2.6 ”数据 类 型 

本 章 的 开始 讲 了 一 些 文档 的 基本 概念 ， 现 在 大 家 应 该 会 启动 并 运行 MongoDB ， 在 
shell 里 面 动 手 试 一 试 。 这 一 部 分 会 更 加 深入 一 些 。MongoDB 支持 将 多 种 数据 类 型 “ 
作为 文档 中 的 值 。 本 市 我 们 就 来 逐一 看 看 。 


2.6.1 基本 数据 类 型 


MongoDB 的 文档 类 似 于 JSON， 在 概念 上 和 JavaScript 中 的 对 象 神似 。JSON 是 一 种 
简单 的 表示 数据 的 方式 ， 其 规范 可 用 一 段 文字 描述 〈 请 到 http://www.json.org 自行 验 
证 )， 仅 包含 6 种 数据 类 型 。 这 带 来 很 多 好 处 : 易于 理解 、 易 于 解析 、 易 于 记忆 。 但 
另外 一 方面 ，JSON 的 表现 力也 有 限制 ， 因 为 只 有 null、 布 尔 、 数 字 、 字 符 串 、 数 
组 和 对 象 儿 种 类 型 。 


虽然 这 些 类 型 的 表现 力 已 经 足够 强大 ， 但 是 对 于 绝 大 多 数 应 用 来 说 还 需要 另外 一 些 不 
可 或 缺 的 类 型 ， 尤 其 是 与 数据 库 打 交道 的 那些 应 用 。 例 如 ，JSON 没有 日 期 类 型 ， 这 
会 使 得 处 理 本 来 简单 的 日 期 间 题 变 得 非常 繁琐 。 只 有 一 种 数字 类 型 ， 没 法 区 分 浮 点 数 
和 整数 ， 更 不 能 区 分 32 位 和 64 位 数字 。 也 没有 办 法 表示 其 他 常用 类 型 ， 如 正则 表达 


MongoDB 在 保留 JSON 基本 的 键 / 值 对 特性 的 基础 上 ， 添 加 了 其 他 一 些 数据 类 型 。 
在 不 同 的 编程 语言 下 这 些 类 型 的 表示 有 些许 差异 ， 下 面 列 出 了 MongoDB 通常 支持 
的 一 些 类 型 ， 同 时 说 明了 在 shell 中 这 些 类 型 是 如 何 表 示 为 文档 的 一 部 分 的 。 


入 门 | 15 


www.Linuxidc.com 


null 
null 用 于 表示 空 值 或 者 不 存在 的 字段 。 


(Eee i null} 
。 布尔 
布尔 类 型 有 两 个 值 'true' 和 'false': 


{"x" : true) 


。 32 位 整数 
shell 中 这 个 类 型 不 可 用 。 前 面 提 到 ，JavaScript 仅 支 持 64 位 浮上 点数， 所 以 32 
位 整数 会 被 自动 转换 。 


。 64 位 整数 
shell 也 不 支持 这 个 类 型 。shell 会 使 用 一 个 特殊 的 内 嵌 文 档 来 显示 64 位 整数 ， 
详 见 2.6.2 节 。 


。 64 位 浮 点 数 
shell 中 的 数字 都 是 这 种 类 型 。 下 面 是 一 个 浮 点 数 ; 


("x" : 3.14] 


这 个 也 是 浮 扩 数 : 


{"x" 。 31 


。 字符 囊 
UTF-8 字符 串 都 可 表示 为 字符 串 类 型 的 数据 : 

rx "foobar") 

。 符号 

shell 不 支持 这 种 类 型 。shell 将 数据 库 里 的 符号 类 型 转换 成 字符 串 。 
。 对 象 id 

对 象 id 是 文档 的 12 宇 贡 的 唯一 ID。 详 见 2.6.6 证 : 

{"x" : ObjectId()} 

。 日 期 

日 期 类 型 存储 的 是 从 标准 纪元 开始 的 毫秒 数 。 不 存储 时 区 : 


{"x" : new Date())} 


。 正则 表达 式 
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文档 中 可 以 包含 正则 表达 式 ， 采 用 JavaScript 的 正则 表达 式 语法 : 


{"x" : /foobar/i)} 


。 代码 

文档 中 还 可 以 包含 JavaScript 代码 : 
{"x" : function{) { /* ... */ }} 
。 二 进 制 数据 


二 进 制 数据 可 以 由 任意 字 节 的 串 组 成 。 不 过 shell 中 无 法 使 用 。 


。 最 大 值 
BSON 包括 一 个 特殊 类 型 ,表示 可 能 的 最 大 值 。shell 中 没有 这 个 类 型 。 


。 最 小 值 : 
BSON 包括 一 个 特殊 类 型 ， 表 示 可 能 的 最 小 值 。shell 中 没有 这 个 类 型 。 


。 未 定义 
文档 中 也 可 以 使 用 未 定义 类 型 (JavaScript 中 null 和 undefined 是 不 同 的 类 
型 )。 


{"x" : undefined)} 
。 数组 
值 的 集合 或 者 列表 可 以 表示 成 数组 : 
("x [va "Ds en])} 
。 内 骨 文 档 
文档 可 以 包含 别 的 文档 ， 也 可 以 作为 值 凤 入 到 父 文档 中 : 
{x" : {"foo" : "bar"”}} 
2.6.2 ”数字 


JavaScript 中 只 有 一 种 “数字 ”类 型 。 因 为 MongoDB 中 有 3 种 数字 类 型 (32 位 整 
数 、64 位 整数 和 64 位 浮 点 数 )，shell 必须 绕 过 JavaScript 的 限制 。 默 认 情 况 下 ， 
shell 中 的 数字 都 被 MongoDB 当做 是 双 精 度数 。 这 意味 着 如 果 你 从 数据 库 中 获得 的 
是 一 个 32 位 整数 ， 修 改 文档 后 ， 将 文档 存 回 数据 库 的 时 候 ， 这 个 整数 也 被 转换 成 
了 浮上 后 数 ， 即 便 保 持 这 个 整数 原封 不 动 也 会 这 样 的 。 所 以 明智 的 做 法 是 尽量 不 要 在 
shell 下 和 覆盖 整个 文档 。( 关 于 修改 指定 键 的 值 的 内 容 参 见 第 3 章 。) 


数字 只 能 表示 为 双 精 度数 (64 位 浮 点 数 ) 的 另外 一 个 问题 是 ， 有 些 64 位 的 整数 并 不 能 
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精确 地 表示 为 64 位 浮 点 数 。 所 以 ， 要 是 存 人 了 一 个 64 位 整数 ， 然 后 在 shell 中 查看 ， 它 
会 显示 一 个 内 购 文 档 ， 表 示 可 能 不 准确 。 例 如 ， 保 存 一 个 文档 '"， 其 中 "myInteger' 键 
的 值 设 为 一 个 64 位 整数 一 一 3， 然 后 在 shell 中 查看 ， 应 该 是 下 面 这 样 的 : 


> doc = db.nums.findOone{() 


{ 
n_ ia : ObjectIid("*4cObeecfd096a2580fe6fa08"), 
nmyIntegezrn : { 
"floatApprox'’ : 3 
} 


} 


数据 库 中 的 数字 是 不 会 改变 的 除非 你 修改 了 ， 尔 后 又 通过 shell 保存 回去 了 ， 这 样 
它 就 会 被 转换 成 浮 点 类 型 )， 内 赂 文档 只 表示 shell 显示 的 是 一 个 用 64 位 浮 点 数 近 
似 表 示 的 64 位 整数 。 若 是 内 幅 文 档 只 有 一 个 键 的 话 ， 实 际 上 这 个 值 是 准确 的 。 


要 是 插入 的 64 位 整数 不 能 精确 地 作为 双 精 度数 显示 ，shell 会 添加 两 个 键 ，"top" 
和 "bottom"*， 分 别 表 示 高 32 位 和 低 32 位 。 人 如， 如 果 插 入 9 223 372 036 854 
775 807，shell 会 这 样 显 示 : 


> db .nums.findOone{) 


{ 
» ijid" : ObjectId{("4cObeecfd096a2580feé6fa09"), 
"myInteger" : { 
"floatApprox" : 9223372036854776000， 
top" : 2147483647， 
rhottom’" : 4294967295 


} 
} 


"floatApprox" 是 一 种 特殊 的 内 英文 档 ， 可 以 作为 值 和 文档 来 操作 : 


> doc.myInteger + 1 
4 


> doc.myInteger.floatApprox 
3 


32 位 的 整数 都 能 用 64 位 的 浮 点 数 精确 表示 ， 所 以 显示 起 来 没什么 特别 的 。 


2.6.3 日 期 


在 JavaScript 中 ，Date 对 象 用 做 MongoDB 的 日 期 类 型 ， 创 建 一 个 新 的 Date 对 象 
时 ， 通 常会 调用 new Data(…) 而 不 只 是 Date (…)。 调 用 构造 函数 (也 就 是 说 不 
包括 new) 实际 上 会 返回 对 日 期 的 字符 串 表示 ， 而 不 是 真正 的 Date 对 象 。 这 不 是 
MongoDB 的 特性 ， 而 是 JavaScript 本 身 的 特性 。 要 是 不 小 心 忘 了 使 用 Date 构造 函 


译注 1: 显然 不 是 在 shell 中 保存 的 。 
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数 ， 最 后 就 会 导致 日 期 和 字符 串 混淆 。 字 符 串 和 日 期 不 能 互相 匹配 硕 所 以 这 会 给 册 
除 、 更 新 、 查 询 等 很 多 操作 带 来 问题 。 


关于 JavaScript 中 Date 类 的 详细 说 明和 可 接受 的 构造 函数 的 格式 ; 请 参见 ECMA- 
Script 规范 15.9 节 (可 在 http://www.ecmascript.org 下 载 )。 


shell 中 的 日 期 显示 时 使 用 本 地 时 区 设置 。 但 是 ， 日 期 在 数据 中 是 以 从 标准 纪元 开 


始 的 毫秒 数 的 形式 存储 的 ， 没 有 与 之 相关 的 时 区 信息 (当然 可 以 把 时 区 信息 作为 其 
他 键 的 值 存储 )。 


2.6.4 数组 
数组 是 一 组 值 ， 既 可 以 作为 有 序 对 象 ( 像 列表 、 栈 或 队列 ) 来 操作 ， 也 可 以 作为 无 
序 对 象 〈 像 集合 ) 操作 。 
在 下 面 的 文档 中 ， "things" 这 个 键 的 值 束 古 一 个 数组 . 

{"things" : ["pie", 3.14]} 
从 这 个 例子 可 以 看 到 ， 数 组 可 以 包含 不 同 数 据 类 型 的 元 素 (这 个 例子 中 是 一 个 字符 
串 和 一 个 浮上 后 数 )。 实 际 上 ， 常 规 键 / 值 对 支持 的 值 都 可 以 作为 数组 的 元 素 ， 甚 至 是 
套 般 数组 。 
文档 中 的 数组 有 个 奇妙 的 特性 ， 就 是 MongoDB 能 “理解 ”其 结构 ， 并 知道 如 何 
“深入 ”数组 内 部 对 其 内 容 进 行 操作 。 这 样 就 能 用 内 容 对 数组 进行 查询 和 构建 索引 
了 。 例 如 ， 之 前 的 例子 中 ，MongoDB 可 以 查询 所 有 "things" 数组 中 含有 3.14 的 
文档 。 要 是 经 常 使 用 这 个 查询 ， 可 以 对 "things" 创建 索引 ， 来 提高 性 能 。 
MongoDB 可 以 使 用 原子 更 新 修改 数组 中 的 内 容 ， 比 如 深入 数组 内 部 将 pie 改 为 pi。 
在 本 书后 面 还 会 介绍 更 多 这 种 操作 的 例子 。 


2.6.5 ”内 散文 档 
内 人 嵌 文 档 就 是 把 整个 MongoDB 文档 作为 另 一 个 文档 中 键 的 一 个 值 。 这 样 数据 可 以 
组 织 得 更 自然 些 ， 不 用 非得 存 成 肩 平 结构 的 。 
例如 ， 用 一 个 文档 来 表示 一 个 人 ， 同 时 还 要 保存 他 的 地 址 ， 可 以 将 地 址 内 髓 到 
"add- ress" 文档 中 : 
{ 
name" : "John Doe", 
raddress" : | 
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nstreet" : *]23 Park Street", 
"City” : ?AnYytOwnn ， 
"tate™ ss TNE" 


} 
} 
上 面 例子 中 "addressn 的 值 是 另 一 个 文档 ， 这 个 文档 有 自己 的 ngstreet". 
ncity 和 "state" 键 值 。 


同 数组 一 样 ，MongoDB 能 够 “理解 ”内 髓 文档 的 结构 ， 并 能 “深入 ”其 中 构建 索 
引 、 执 行 碍 询 ， 或 者 更 新 。 


我 们 会 在 后 面 深 入 讨论 模式 设计 ， 但 就 算是 从 这 个 简单 的 例子 也 可 以 看 出 内 峰 文 档 
可 以 改变 处 理 数 据 的 方式 。 在 关系 型 数据 库 中 ， 之 前 的 文档 一 般 会 被 拆 分 成 两 个 表 
(“people” 和 “address”) 中 的 两 个 行 。 在 MongoDB 中 ， 就 可 以 将 地 址 文档 直接 帐 入 
人 员 文 档 中 。 使 用 得 当 的 话 ， 内 骨 文 档 会 使 信息 表示 得 更 加 自然 (通常 也 会 更 高 效 )。 


这 样 做 也 有 坏处 ， 因 为 MongoDB 会 储存 更 多 重复 的 数据 ， 这 样 是 反 规 范 化 的 。 如 
末 在 关系 数据 库 中 “address” 在 一 个 独立 的 表 中 ， 要 修复 地 址 中 的 拼写 错误 。 当 我 
们 对 “people” 和 “address” 执 行 连接 操作 时 ， 每 一 个 使 用 这 个 地 址 的 人 的 信息 都 
会 得 到 更 新 。 但 是 在 MongoDB 中 ， 则 需要 在 每 个 人 的 文档 中 修正 拼写 错误 。 


2.6.6 _id 和 Objectld 

MongoDB 中 存储 的 文档 必须 有 一 个 "iq" 键 。 这 个 键 的 值 可 以 是 任何 类 型 的 ， 上 加 
认 是 个 objectra 对象。 在 一 个 集合 里 面 ， 每 个 文档 都 有 唯一 的 "ia" 值 ， 来 确保 
集合 里 面 每 个 文档 都 能 被 唯一 标识 。 如 果 有 两 个 集合 的 话 ， 两 个 集合 可 以 都 有 一 个 
值 为 123 的 ， ia 键 ， 但 是 每 个 集合 里 面 只 能 有 一 个 ， ia 是 123 的 文档 。 


1. Objectld 

objectId 是 "ian 的 默认 类 型 。 它 设计 成 轻 量 型 的 ， 不 同 的 机 器 都 能 用 全 局 唯一 
的 同 种 方法 方便 地 生成 它 。 这 是 MongoDB 采用 objectIa， 而 不 是 其 他 比较 常规 
的 做 法 (比如 自动 增加 的 主键 ) 的 主要 原因 ， 因 为 在 多 个 服务 器 上 同步 自动 增加 主 
键 值 既 费力 还 费时 。MongoDB 从 一 开始 就 设计 用 来 作为 分 布 式 数据 库 ， 处 理 多 个 
方 反 是 一 个 核心 要 求 。 后 面 会 看 到 objectId 类 型 在 分 片 环境 中 要 容易 生成 得 多 。 


objectId 使 用 12 字 贡 的 存储 空间 ， 每 个 字 节 两 位 十 六 进 制 数字 ， 是 一 个 24 位 的 
字符 串 。 由 于 看 起 来 很 长 ， 不 少 人 会 觉得 难以 处 理 。 但 关键 是 要 知道 这 个 长 长 的 
objectId 是 实际 存储 数据 的 两 倍 长 。 


如 要 快速 连续 创建 多 个 objectI19G， 会 发 现 每 次 只 有 最 后 几 位 数字 有 变化 。 另 外 ， 
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中 间 的 几 位 数字 也 会 变化 (要 是 在 创建 的 过 程 中 停顿 几 秒 钟 )。 这 是 obpjectIa 的 创 
建 方式 导致 的 。12 字 市 按照 如 下 方式 生成 : 


0|112131415161718191101731 
时 间 戳 机 器 PID 计数 器 
前 4 个 字 节 是 从 标准 纪元 开始 的 时 间 戳 ， 单 位 为 秒 。 这 会 带 来 一 些 有 用 的 属性 。 


。 时 间 惟 ， 与 随后 的 5 个 字 节 组 合 起 来 ， 提 供 了 秘 级 别 的 唯一 性 。 

。 由 于 时 间 惟 在 前 ， 这 意味 着 objectId 大 致 会 按照 插入 的 顺序 排列 。 这 对 于 某 些 
方面 很 有 用 ， 如 将 其 作为 索引 提高 效率 ， 但 是 这 个 是 没有 保证 的 ， 仅仅 是 “大 致 。 

。 这 4 个 字 节 也 隐 含 了 文档 创建 的 时 间 。 绝 大 多 数 驱 动 都 会 公开 一 个 方法 从 
ObjectId 获取 这 个 信息 。 


因为 使 用 的 是 当前 时 间 ， 很 多 用 户 担 心 要 对 服务 器 进行 时 间 同 步 。 其 实 没 有 这 个 必 
要 ， 因 为 时 间 玲 的 实际 值 并 不 重要 ， 只 要 其 总 是 不 停 增 加 就 好 了 (每 秒 一 次 )。 


接 下 来 的 3 字 节 是 所 在 主机 的 唯一 标识 符 。 通 第 是 机 妖 主 机 名 的 敌 列 值 。 这 样 就 可 
以 确保 不 同 主机 生成 不 同 的 obpjectId， 不 产生 冲突 。 


为 了 确保 在 同一 台 机 器 上 并 发 的 多 个 进程 产生 的 objectId 古 唯 一 一 的 ， de 
字 节 来 自 产生 opjectId 的 进程 标识 符 (PID)。 


前 9 字 节 保证 了 同一 秒 钟 不 同 机 器 不 同 进程 产生 的 obpjectId 是 唯一 的 。 后 3 字 市 
就 是 一 个 自动 增加 的 计数 器 ， 确 保 相 同 进 程 同 一 秒 产生 的 opjectIa 也 是 不 一 样 的 。 
同一 秒 钟 最 多 允许 每 个 进程 拥有 256”(16 777 216) 个 不 同 的 objectId。 


2. 自动 生成 _id 


前 面 讲 到 ， 如 果 揪 入 文档 的 时 候 设 有 " ia" 键 ， 系统 会 自动 帮 你 创建 一 个 。 可 以 由 
MongoDB 服务 器 来 做 这 件 事 情 ， 但 通常 会 在 客户 端 由 驱动 程序 完成 。 理 由 如 下 。 


。 虽然 ObjectId 设计 成 轻 量 型 的 ， 易 于 生成 ， 但 是 毕竟 生成 的 时 候 还 是 产生 开销 。 
在 客户 端 生 成 体现 了 MongoDB 的 设计 理念 : 能 从 服务 器 端 转移 到 驱动 程序 来 做 的 
事 , 就 尽量 转移 。 这 种 理念 背后 的 原因 是 ,即便 是 像 MongoDB 这 样 的 可 扩展 数据 库 ， 
扩展 应 用 层 也 要 比 扩展 数据 库 层 容易 得 多 。 将 事务 交 由 客户 端 来 处 理 ， 就 减轻 了 数 
据 库 扩展 的 负担 。 


。 在 客户 端 生 成 objectId， 驱 动 程序 能 够 提供 更 加 丰富 的 API。 人 例如， 驱动 程序 可 
以 有 自己 的 insert 方法 , 可 以 返回 生成 的 opjectId, 也 可 以 直接 将 其 插入 文档 。 
如 果 驱 动 程序 允许 服务 器 生成 objectId， 那 么 将 需要 单独 的 查询 ， 以 确定 插入 
的 文档 中 的 " ia" 值 。 


入 门 | 21 


www.Linuxidc.com 
J 大 另 网 


Wwww.LiNnuxidc.com 
第 3 章 


创建 、 更 新 及 删除 文档 


本 章 会 介绍 基本 的 数据 库 移 入 /移出 数据 的 操作 ， 具 体 包 含 如 下 操作 。 


。 问 集合 添加 新 文档 

。 从 集合 里 删除 文档 

。 更 新 现 有 文档 

。 为 这 些 操作 选择 合适 的 安全 级 别 和 速度 


3.1 插入 并 保存 文档 
插入 是 辣 MongoDB 中 添加 数据 的 基本 方法 。 对 目标 集 使 用 insert 方法 ， 插 入 一 个 文档 : 


> db.foo.insert ({"bar" : "baz"}) 


这 个 操作 会 给 文档 增加 一 个 ”idq" 键 (要 是 原来 没有 的 话 )， 然 后 将 其 保存 到 MongoDB 中 。 


3.1.1 批量 插入 


如 果 要 插入 多 个 文档 ， 使 用 批量 插入 会 快 一 些 。 批 量 插入 能 传递 一 个 由 文档 构成 的 
数组 给 数据 库 。 


一 次 发 送 数 十 、 数 百 乃 至 数 千 个 文档 会 明显 提高 插入 的 速度 。 一 次 批量 插入 只 是 单 
个 的 TCP 请 求 ， 也 就 是 说 避免 了 许多 零碎 的 请 求 所 带 来 的 开销 。 由 于 无 需 处 理 大 量 
的 消息 头 ， 这 样 能 够 减少 插入 时 间 。 要 知道 当 单个 文档 发 送 至 数据 库 时 ， 会 有 一 个 
头 部 信息 ， 告 诉 数据 库 对 指定 的 集合 做 插入 操作 。 用 批量 插入 的 话 ， 数 据 库 就 不 用 
一 过 又 一 过 地 处 理 每 一 个 文档 的 这 种 信息 了 。 
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批量 插入 用 于 应 用 程序 中 ， 比 如 一 次 插入 数 百 个 传感器 采样 点 到 分 析 集 合 。 只 有 插 
入 多 个 文档 到 一 个 集合 的 时 候 ， 这 种 方式 才 会 有 用 ， 而 不 能 用 批量 插入 一 次 对 多 个 
集合 执行 操作 。 要 是 只 是 导入 原始 数据 (例如 ， 从 数据 feed 或 者 MySQL 中 导入 )， 
可 以 使 用 命令 行 工 具 ， 如 mongoimport， 而 不 是 使 用 批量 插入 。 另 一 方面 ， 可 以 用 
它 在 存 和 人 MongoDB 之 前 对 数据 做 一 些小 的 修整 (转换 日 期 成 为 日 期 类 型 ， 或 添加 
自 定义 的 " id")， 所 以 批量 插入 对 导入 数据 来 说 也 是 有 用 的 。 


当前 版 本 的 MongoDB 消息 长 度 最 大 是 16 MB， 所 以 使 用 批量 插入 时 还 是 有 限制 的 。 


3.1.2 插入 : 原理 和 作用 


当 执 行 插入 的 时 候 ， 使 用 的 驱动 程序 会 将 数据 转换 成 BSON 的 形式 ， 然 后 将 其 送 入 
数据 库 (关于 BSON， 详 见 附录 C)。 数 据 库 解析 BSON， 检 验 是 否 包 含 " id 键 
并 且 文 档 不 超过 4 MB， 除 此 之 外 ， 不 做 别 的 数据 验证 ， 就 只 是 简单 地 将 文档 原样 
存 和 人 数据 库 中 。 这 会 带 来 些 或 好 或 坏 的 影响 ， 最 明显 的 副作用 就 是 允许 插入 无 效 的 
数据 ， 而 从 好 处 看 ， 它 能 让 数据 库 更 加 安全 ， 远 离 注 入 式 攻击 。 


所 有 主流 语言 (也 包括 绝 大 部 分 非 主流 语言 ) 的 驱动 会 在 传送 数据 之 前 进行 一 些 数据 
的 有 效 性 检查 文档 是 否 超 长 ， 是 否 包 含 非 UTF-8 字符 ， 或 者 使 用 了 未 知 类 型 ) 。 要 是 
对 使 用 的 驱动 拿捏 不 维 ， 可 以 在 启动 数据 库 服务 器 的 时 候 使 用 -~-Objcheck 选项 ， 这 
样 服务 器 就 会 在 插入 之 前 先 检查 文档 结构 的 有 效 性 (当然 这 么 做 要 牺牲 些 性 能 )。 


pn 大 于 4 MB (转换 成 BSON) 的 文档 是 不 能 存 人 数据 库 的 。 这 算是 有 点 随 
意 挑选 的 大 小 (可 能 以 后 会 增加 )。 主 要 是 避免 不 良 的 模式 设计 ， 保 证 稳定 
<， 的 性 能 。 要 查看 doc 文档 转 为 BSON 的 大 小 (以 字 布 为 单位 )， 在 shell 中 


运行 object .bsonsize (doc) 即 可 。 


4 MB 究竟 是 个 多 大 空间 昵 ， 要 知道 整 部 《战争 与 和 平 》 也 才 3.14 MB。 


MongoDB 在 插入 时 并 不 执行 代码 ， 所 以 这 块 设 有 注入 式 攻 击 的 可 有 能。 传统 的 注入 
式 攻 击 对 MongoDB 来 说 是 无 效 的 ， 类 似 的 注入 式 型 攻击 一 般 来 说 也 是 非常 容易 对 
抗 的 ， 何 况 插入 对 这 种 攻击 天 生 免 疫 。 


3.2 ”删除 文档 


现在 数据 库 中 有 些 数据 ， 要 删除 它 : 


> db.users.remove () 


译注 1: MongoDB 1.8 支 持 16 MB 。 
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上 述 命令 会 删除 users 集合 中 所 有 的 文档 。 但 不 会 删除 集合 本 身 ， 原 有 的 案 引 | 硬 魏 保 贸 0 | 难 


remove 国 数 可 以 接受 一 个 查询 文档 作为 可 选 参数 。 给 定 这 个 参数 以 后 ， 只 有 人 符合 条 件 的 
文档 才 被 删除 。 例 如 ， 假 设 要 删除 mailing.list 集合 中 所 有 "optout" 为 true 的 大 : 


> db.mailing.list.remove(l{"opt-out" : true}) 


删除 数据 是 永久 性 的 ， 不 能 撤销 ， 也 不 能 恢复 。 


删除 速度 
删除 文档 通常 会 很 快 ， 但 是 要 清除 整个 集合 ， 直 接 删 除 集合 (然后 重建 索引 ) 会 更 快 。 


例如 ， 在 Python 中 ， 使 用 如 下 方法 插入 一 百 万 个 虚拟 元 素 : 


for i in range(1000000): 
collection.insert{({"foo"; "par",. "baz"; i, "z": 10 - i}) 


现在 把 刚 插入 的 文档 都 删除 ， 并 记录 花费 的 时 间 。 首 先 来 看 一 个 简单 的 删除 (remove) : 
import time 
from pymongo import Connection 


db = Connectiont() .foo 
collection = db.bar 


start = time.time!{) 


collection.removel{) 
collection.find one() 


total = time.time() = start 
print "sd seconds" 和 total 


在 MacBook Air 笔记 本 电脑 上 ， 这 段 脚本 输出 “46.08 seconds”(46.08 秒 )。 


如 朱 用 db.drop_collection("bar") 来 代替 remove 和 find one， 只 花 了 .01 
秒 ! 速度 提升 相当 明显 ， 但 也 是 有 代价 的 : 不 能 有 任何 限制 条 件 。 整 个 集合 都 被 删 
除了 ， 所 有 的 索引 也 都 不 见 了 。 


3.3 ”更 新 文档 


文档 存 人 数据 库 以 后 ， 就 可 以 使 用 update 方法 来 修改 它 。update 有 两 个 参数 ， 一 
个 是 查询 文档 ， 用 来 找 出 要 更 新 的 文档 ， 男 一 个 是 修改 器 (modifier) 文档 ， 描 述 对 
找到 的 文档 做 哪些 更 改 。 
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更 新 操作 是 原子 的 : 若是 两 个 更 新 闻 时 发 生 ， 先 到 达 服 务 器 的 先 执行 ， 接 着 执行 另外 一 个 。 
所 以 ， 互 相 有 冲突 的 更 新 可 以 火速 传递 ， 并 不 会 相互 干扰 : 最 后 的 更 新 会 取得 “胜利 ”。 


3.3.1 文档 替换 
更 新 最 简单 的 情形 就 是 完全 用 一 个 新 文档 替代 匹配 的 文档 。 这 适用 于 模式 结构 发 生 
了 较 大 变化 的 时 候 。 例 如 ， 要 对 下 面 的 用 户 文档 做 一 个 比较 大 的 调整 : 

{ 


“id" : ObjectIid{({"4b2b9f67alf631733d917a7a!')， 
14 name 11 . 村 ] OE 持 
nfriends' : 32, 
"enemiess : 2 
} 
想 变 成 下 面 的 样子 : 
{ 
Ld" : ObjectIid('4b2b9f67alf631733d917a7a')， 
nusername' : "joe", 
"relationships' : 
"friends" : 32, 
"enemies'* : 2 
} 


} 
可 以 用 updaate 来 蔡 换 文档 : 


> var joe = db.users.findone{{"name" : "joe"}); 

> joe.relationships = {"friends" : joe.friends, "enemies" : joe.enemies}; 
ufriends" : 32, 
renemies" : 2 


} 


> joe.username = joe.name; 

njoe" 

> delete joe.friends; 

true 

> delete joe.enemies, 

true 

> delete joe.name; 

true 

> db.users.update({"name" : "joe"}, joe); 


现在 ， 用 findone 查看 更 新 后 的 文档 结构 。 


常见 错误 就 是 查询 条 件 匹 配 了 多 个 文档 ， 然 后 更 新 的 时 候 由 于 第 二 个 参数 的 存在 就 
产生 重复 的 "id 值 。 数 据 库 会 报错 ， 不 做 任何 修改 。 


译注 1: 除了 shell 外 、 一 般 程 序 是 不 会 报错 的 ， 除 非 用 getLastError。 
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例如 ， 有 好 几 个 文档 都 有 相同 的 "name"， 但 是 我 们 没有 意识 到 : 


> db.people.find!{() 


{" id" : ObjectId{("4b2b9f67alf631733d917a7b"), "name" : "joe", "age" : 65}, 

{" id" : ObjectIid{("4b2b9f67a1f631733d917a7c*), "name" : "joe", "age" : 20}, 
1 id" : ObpjectId{'4b2b9f67alf631733d917a7d"),， "name’ : "joe", *age"™ : 49 | ， 
2 可 


现在 如 果 第 二 个 Joe 过 生日 ， 要 增加 "age 的 值 ， 可 能 会 这 么 做 : 


> joe = db.people.findOone({'name" : "joe", "age’” : 20}); 


| " jid" : ObjectId("4b2b9f67alf631733d917a7c*), 
rager :20 

] 3 

> ]JODe .Se++? 

> db.people.update({'name" : "joe"}, joe),; 

E11001 duplicate key on update 
到 底 怎么 了 呢 ? 当 调 用 update 时 ， 数 据 库 会 查找 一 个 与 {"name" : "joe"} 匹配 
的 文档 。 找 到 的 第 一 个 就 是 那个 65 岁 的 Joe。 然 后 数据 库 试 着 用 变量 joe 中 的 内 容 
替换 找到 的 文档 ， 但 是 会 发 现 集合 里 面 已 经 有 一 个 具有 同样 "” iar 的 文档 。 所 以 ， 
更 新 就 会 失败 ， 因 为 ， id 值 必 须 唯一 。 为 了 避免 这 种 情况 ， 最 好 确保 更 新 总 是 指 
定 唯 一 文档 ， 例 如 通过 像 ， ia" 这 样 的 键 来 匹配 。 


3.3.2 ”使 用 修改 器 


通常 文档 只 会 有 一 部 分 要 更 新 。 利 用 原子 的 更 新 修改 器 ， 可 以 使 得 这 种 部 分 更 新 极 
为 高 效 。 更 新 修改 器 是 种 特殊 的 键 ， 用 来 指定 复杂 的 更 新 操作 ， 比 如 调整 、 增 加 或 
者 删除 键 ， 还 可 能 征 操 作 数 组 或 者 内 磐 文档 。 


假设 要 在 一 个 集合 中 放置 网 站 的 分 析 数据 ， 每 当 有 人 访问 页 面 的 时 候 ， 就 要 增加 计 
数 器 。 可 以 使 用 更 新 修改 器 原子 性 地 完成 这 个 增加 。 每 个 URL 及 对 应 的 访问 次 数 都 
以 如 下 的 方式 存储 在 文档 中 ， 


1 id* : ObjectId("4b253b067525f35f94b60a31"),， 
Url” : "www.example.com", 
npageviews' ; 52 


} 


每 次 有 人 访问 页 面 ， 就 通过 URL 找到 该 页 面 ， 并 用 "$inc" 修改 器 增加 "pageviews" 
.的 值 。 


> db.analytics.update ({"url" : "www.example.com"}, 
... {"sinc"n : {pageviews" : 1}}) 
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接着 ， 执 行 一 个 find 操作 ， 会 发 现 "pageviewsn 的 值 增 鲁 导 la 


> db.analytics.findl() 


| 
"ian : ObjectId("4b253b06752S5f35f94b60a31"), 
"Url ; "WWww .example .com", 
"Pageviewsn : 53 


Perl 和 PHP 程序 员 可 能 会 想 ， 要 是 用 别 的 字母 而 不 是 $， 就 更 好 了 。 在 这 两 种 
语言 里 $ 表示 变量 前 级 ， 在 双 3 引 号 中 的 以 $ 开头 的 字符 串 都 会 被 替换 成 变量 的 
值 。 然 而 ，MongoDB 一 开始 设计 成 JavaScript 数据 库 ，s 在 JavaScript 中 并 没 什 
么 特殊 含义 ， 所 以 就 这 么 用 了 。 这 的 确 是 一 个 MongoDB 的 历史 遗留 问题 。 





Perl 和 PHP 程序 员 还 是 有 些 选 择 的 。 首 先 ， 可 以 转 义 $:， "AN$foo"。 也 可 使 用 
单 引 号 !$fcoo'!， 就 不 会 有 变量 解释 了 。 最 后 ， 这 两 种 语言 的 驱动 程序 都 可 以 
不 使 用 $， 而 用 目 己 的 定义 。 在 Perl 中 ,设置 $MongoDB: :BSON: :char， 在 
PHP 中 设置 php.ini 文件 的 mongo.cmd_char， 可 以 用 =、: 、?， 或 者 任何 你 觉 
得 可 以 替代 $ 的 字符 都 可 以 。 比 如 ， 你 选 了 ~ ， 就 可 以 用 ~ inc 当做 \$inec， 
把 ~ gt 当做 \$gt。 


尽量 不 要 选择 会 出 现在 键 名 中 的 字符 (_ 或 者 x)， 也 不 要 使 用 自身 会 转 义 
的 字符 ， 这 只 会 徒 增 烦恼 (比如 \ 或 者 Perl 中 的 @)。 


使 用 修改 器 时 ，"_ia" 的 值 不 能 改变 。( 注 意 ， 整 个 文档 替换 时 是 可 以 改变 "ia" 
的 。) 其 他 键 值 ， 包 括 其 他 唯一 索引 的 键 ， 都 是 可 以 更 改 的 。 


1. "$set" 修 改 器 入 门 
"$set" 用 来 指定 一 个 键 的 值 。 如 果 这 个 键 不 存在 ， 则 创建 它 。 这 对 更 新 模式 或 者 
增加 用 户 定义 键 来 说 非常 方便 。 例 如 ， 用 户 资料 存储 在 下 面 这 样 的 文档 里 ， 


> db.users.findonel{) 


{ 


" id" : ObjectId("4b253b067525£35f94b60a31"), 


Wh name 机 肝 | [| 山 

"age" ; 30， 

"Sex" : "male", 
"rocation™ : "Wisconsin" 


} 
非常 简要 的 一 段 用 户 信息 。 要 想 添 加 喜欢 的 书籍 进去 ， 可 以 使 用 "$set": 


> db.users.update({'" id" : ObjectId("4b253b067525f35f94b60a31")}, 
. {"$set" : {"favorite book" : "war and peace"})}) 
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之 后 文档 就 有 了 “favorite book” 键 。 


> db.users.findone() 


人 


} 


* id" : ObjectIid{"4b253b06752Sf3S5f94b60a31"), 


11 name 娃 : 4 OF LL . 

"nage" : 30, 

"sex"” : "male", 

HJ]ocation" : "Wisconsin", 
nfavorite book'" : "war and Peacen 


要 是 用 户 觉得 喜欢 的 其 实 是 另外 一 本 书 ，"$set" 又 能 帮 上 忙 了 : 


> db.users.update({'"name'! : "joe"}, 


{$set" : {favorite book" : "green eggs and ham"}}) 


用 "$set" 其 至 可 以 修改 键 的 数据 类 型 。 例 如 ， 如 果 用 户 又 觉得 喜欢 的 是 一 堆 书 ， 
就 可 以 将 “favorite book” 键 的 值 变 成 一 个 数组 : 


> db.users.update (fname" : "joe"}, 


{"$set" : {"favorite book!' 


[cat's cradle", "foundation trilogy'", "ender's game"] } } ) 


如 果 用 户 突然 发 现 自己 不 爱 读 书 ， 可 以 用 "sunset" 将 键 完 全 删除 : 


> db.users.update({"name" : "joe"}, 


{"'$unset" : {"favorite book" : 1}}) 


现在 这 个 文档 就 和 例子 开始 的 时 候 一 样 了。 
也 可 以 用 "$set" 修改 内 磐 文档 : 


> db.blog.posts.findOone() 


{ 
" id" : ObjectIid("4b253b067525f35f94b60a31"), 
title" : "A Blog Post', 
content® :; mM...", 
author" : { 
name' : "joe", 
"email" : "joe@example.com" 
> db.blog.posts.update({'author.name" : "joe"}, {'"$set" : {"author. 


name" : "joe schmoe"}}) 
> db.blog.posts.findone() 


人 


» id" : ObjectIid("4b253b067525f35f94b60a31"), 
ntitle" : "A Blog Post", 
eontent® 二 Wt 
"author" : { 
nnamen : "Joe schmoe", 
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nemail" : "joe@example.com" 
} 
} 
增加 、 修 改 或 删除 键 的 时 候 ， 应 该 使 用 $ 修改 右 。 要 把 "foor 的 值 设 为 "bar"， 常 
见 的 错误 做 法 如 下 : 


> db.coll.update (criteria, {'foo" : "bar"}) 
这 会 事与愿违 。 实 际 上 这 会 将 整个 文档 用 {"foon : "bar"}】 替换 掉 。 一 定 要 使 用 以 
$ 开头 的 修改 器 来 修改 键 / 值 对 。 


2. 增加 和 减少 


"$inc" 修改 器 用 来 增加 已 有 键 的 值 ， 或 者 在 键 不 存在 时 创建 一 个 键 。 对 于 分 析 数 
据 、 因 采 关 系 、 投 票 或 者 其 他 有 变化 数值 的 地 方 ， 使 用 这 个 都 会 非常 方便 。 


假如 建立 了 一 个 游戏 集合 ， 将 游戏 和 变化 的 分 数 都 存储 在 里 面 。 比 如 用 户 玩 弹 球 游 
戏 (pinball)， 可 以 插入 一 个 包含 游戏 名 和 玩家 的 文档 来 标识 不 同 的 游戏 : 


> db.games.insert ({"game" : "pinball'", "user" : "joe"}) 


要 是 小 球 撞 到 了 了 砖 块 ， 就 会 给 玩家 加 分 。 分 数 可 以 随便 给 ， 这 里 就 把 玩家 得 分 基数 
约定 成 50 好 了 。 使 用 "sincn 修改 器 给 玩家 加 50 分 : 


> db.games.update({"game" : "pinball", "user" : "joe"}, 
... {"$inc"” : {"score" : 50}}) 


> db.games .finaone () 


{ 


" ia" : ObjectIid("4b2d75476cc61l3dSee930164"),， 
"rgame" : "pinball", 

iname" : njoer, 

“站 CO” 3 50 


} 
分 数 链 (score) 原来 并 不 存在 ， 所 以 "$inc* 创建 了 这 个 键 ， 并 把 值 设 定 成 增加 量 : 50。 
如 果 小 球 落 入 加 分 区 ， 要 加 10 000 分 。 只 要 给 "$incn 传递 一 个 不 同 的 值 就 好 了 : 


> db.games.updqaatel({frgamen : "pinball*", "user" : "joe"}, 
... {$inc" : {"score" : 10000}}) 
现在 来 看 看 结果 : 
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> db.games.find!{() 


" id" : ObjectIid("4b2d75476cc613d5ee930164")， 
"game" : "pinball", 
"name" : "joe", 
"geore™" ; 10050 

| 


"SCoren 键 存在 并 有 数字 类 型 的 值 ， 所 以 服务 器 就 把 这 个 值 加 了 10 000。 


"sinc" 与 "$set" 的 用 法 类 似 ， 就 是 专门 来 增加 (和 减少 ) 数字 的 。 nsincen" 只 能 用 于 
整数 、 长 整数 或 双 精 度 浮 点 数 。 要 是 用 在 其 他 类 型 的 数据 上 就 会 导致 操作 失败 。 其 中 包 
括 很 多 语言 会 自动 转换 成 数字 的 类 型 ， 例 如 nul1、 布 尔 类 型 或 数字 构成 的 字符 串 。 

> db.foo.inasert ({"count" : "1"}) 

> db.foo.update({}, {$ine : {count : 1}}) 

Cannot apply $inc modifier to non-number 
另外 ，"$inc" 键 的 值 必须 为 数字 。 不 能 使 用 字符 串 、 数 组 或 其 他 非 数 字 的 值 。 否 则 就 
会 提示 “Modifier "sinc" allowed for numbers only”( 修 改 器 "$ine" 只 允许 使 用 数字 ) 
这 样 的 错误 。 要 修改 其 他 类 型 ， 应 该 使 用 "$set" 或 者 一 会 儿 要 讲 到 的 数组 修改 器 。 


3. 数组 修改 器 
有 一 类 很 好 的 修改 器 可 用 于 操作 数组 。 数 组 是 第 用 且 非 第 有 用 的 数据 结构 ， 它 们 不 
仅 是 可 通过 索引 进行 引用 的 列表 ， 而 且 还 可 以 作为 集合 来 用 。 


数组 操作 ， 顾 名 思 义 ， 只 能 用 在 值 为 数组 的 键 上 。 例 如 不 能 对 整数 做 push， 人 也 不 能 
对 字符 串 做 pop。 使 用 "sset" 或 "sinc" 来 修改 标量 值 。 

如 果 指 定 的 键 已 经 存在 ，"$push" 会 同 已 有 的 数组 末尾 加 入 一 个 元 系 ， 要 是 没有 
就 会 创建 一 个 新 的 数组 。 例 如 ,假设 要 存储 博客 文章 ， 要 添加 一 个 包含 一 个 数组 的 
"comments" (评论 ) 键 。 可 以 问 还 不 存在 的 "comments" 数组 push 一 个 评论 ， 这 
个 数组 会 被 自动 创建 ， 并 加 入 评论 : 


> db.blog.posts.findone () 


"id" : ObjectId("4b2d75476cc613d5ee930164"),， 
"title" : "A blog post", 
TomtenmneY OR Wwe 
} 
> db.blog.posts.update({"title" : "A blog post"}, {s$push : {"comments" 
... {"name" : "joe", "email" ; "joe@example.com", "content" : "nice 
post ."}}}) 


> db.blog.posts.findone'() 
| 
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"_ id" : ObjectIQ("4b2d75476cc613d5ee930164") ， 
"title" : "A blog Postn， 
oontene™ ss Trea ™, 
"comments" : | 
"namer ， "joe" 1 
"email" : *joe@example.com', 
"Content" : "nice post." 


} 
要 是 还 想 添 加 一 条 评论 ， 可 以 接着 使 用 "spush": 


> db.blog.posts.update({"title" : ‘A blog post"},{$push : {"comments": 
{"name" : "bob", "email" : "bob@example.com", "content" : "good 
post."}}}) 
> db.blog.posts.findone{() 
{ 


" id” : ObjectIid("4b2d75476cc613d5ee930164"),， 
"title* : ?YA blog post", 


ToontenE™ 3 WT wm 

rcomments’ : [ 
Hname : Hjoe", 
"email" : "joe@example.com", 
"noontent'" : "nice post." 
"name" : "bob", 
"email" : "bob@example.com", 
lcontent" : good post." 


} 
经 稼 会 有 这 种 情况 ， 如 果 一 个 值 不 在 数组 里 面 就 把 它 加 进去 。 可 以 在 查询 文档 中 用 
"$ne" 来 实现 。 例 如 ， 要 是 作者 不 在 引文 列表 中 就 添加 进去 ， 可 以 这 么 做 : 


> db.papers.update ({rauthors cited" : {"$ne" : "Richie"}}, 
{$push : {"authors cited" : "Richie"})}) 


也 可 以 用 "$adGdToSet" 完成 同样 的 事 ， 要 知道 有 些 情况 "sne" 根本 行 不 通 ， 有 些 
时 候 更 适合 用 "$saddToSet'，。 


例如 ， 有 一 个 表示 用 户 的 文档 ， 已 经 有 了 电子 邮件 地 址 信息 : 


> db.users.findone({" id" : ObjectIid("4b2d75476cc613d5ee930164")}) 


人 


"_iQ" : ObjectIid{"4b2d75476cc613d5ee930164"),， 
"username" : "joe", 
"emails"” : [ 


32 | 第 


Wwww.LiNnuxidc.com 


"joe@example.com", 
"joe@gmail .com", 
"joe@yahoo.com" 


当 添 加 新 的 地 址 时 ， 用 "$addToset" 可 以 避免 重复 : 


> db.users.update({" id" : ObjectId{"4b2d75476cc613d5ee930164")}, 
... {"$addToSet" : {"emails" : "joe@gmail.com"}}) 
> db.users.findone({" id" : ObjectId ("4b2d75476cc613d5ee930164")}) 
{ 
" id" : ObjectId("4b2d75476cc61l3d5ee930164"),，, 
rusername” : "joe'", 
"emails" : [ 
"joe@example.com’, 
"joe@gmail.com", 
"joe@yahoo.com!', 


} 
> db.users.update{{" id" : ObjectIid{("4b2d75476cc613d5ee930164")}, 
... {"$addToSet" : {"emails" : "joe@hotmail.com"}}) 
> db.users.findone({" id" : ObjectId{("4b2d75476cc613d5ee930164")}) 
{ 
" id" : ObjectId("4b2d75476cc613d5ee930164"),，, 
rusername" : !]oen"， 
"nemails" : [ 
njoe@example.com’", 
njoe@gmail .comn ， 
1]oeG@yahooco .comin ， 
»joe@hotmail .Coms 
] 
} 


将 "$saddToSet" 和 "$each" 组 合 起 来 ， 可 以 添加 多 个 不 同 的 值 ， 而 用 "$ne" 和 
"nspushn" 组 合 就 不 能 实现 。 例 如 ， 想 一 次 添加 多 个 邮件 地 址 ， 就 可 以 使 用 这 些 修 改 器 : 


> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")】, 
{"$addToset" 
... {'"emails" : {'"S$each" : ["joe@php.net", "joe@example.com", *joe® 
python.org"] }}}) 
> db.users.findone({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId{({"4b2d75476cc613d5ee930164")， 
rusername" : "joe", 
"nemails" : [ 
"JoeG@examp1lLe.coman ， 
"joe@gmail .com", 
"njoe@yahoo .com", 
"joe@hotmail .comn 
"joe@php.net" 
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"joa@python .org" 
| 
有 有 几 个 从 数组 中 删除 元 素 的 方法 。 若 是 把 数组 看 成 队列 或 者 栈 ,“ 可 以 用 "spop"， 


这 个 修改 器 可 以 从 数组 任何 一 端 删 除 元 素 。{$pop : {key : 1}} 从 数组 末尾 删除 
一 个 元 素 ，{$pop : {key : -1}} 则 从 头 部 删除 。 


有 了 时 需要 基于 特定 条 件 来 删除 元 素 ， 而 不 仅仅 是 依据 位 置 ，"$pul1" 可 以 做 到 。 例 
如 ， 有 个 待 完 成 事项 列表 ， 顺 序 有 些 问题 : 


> db.lists.insert({"todo" : ["dishes", "laundry'", "dry cleaning"]}) 


要 是 想 把 洗衣 服 (laundry) 放 到 第 一 位 ， 可 以 从 列表 中 先 删 掉 ; 
> db.lists.update({}, {"$pull" : {"todo" : "lJaundry"}}) 
通过 查找 ,会 看 到 只 有 两 个 元 素 本; 
> db.lists.findit) 
" id" : ObjectId("4b2d75476cc613d5ee930164"),， 
"todo" : [ 
"dishes", 
"dry cleaning" 
] 
} 


"spull" 会 将 所 有 匹配 的 部 分 删 掉 。 对 数组 [1, 1, 2, 1] 执行 pull 1， 得 到 结果 就 是 
只 有 一 个 元 素 的 数组 [2]。 


4. 数组 的 定位 修改 器 
若是 数组 有 多 个 值 ， 而 我 们 只 想 对 其 中 的 一 部 分 进行 操作 ， 这 就 需要 一 些 技巧 。 有 
两 种 方法 操作 数组 中 的 值 ， 通 过 位 置 或 者 定位 操作 符 ("$s")。 
数组 都 是 以 0 开头 的 ， 可 以 将 下 标 直接 作为 键 来 选择 元 素 。 例 如 ， 这 里 有 个 文档 ， 
其 中 包含 由 内 人 嵌 文 档 组 成 的 数组 ， 比 如 包含 评论 的 博客 文章 。 

> db.blog.posts.findone() 


" id" : ObjectIid("4b329a216cc613d5ee930192"),，, 


laeontent 中 器 rp 吓 

"comments" : [人 
"comment" : "good post", 
"author"” : "John", 


"votes™ ; 0 
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comment™ : *i thought it was 七 OO Shortn ， 
sauthor" : "Clairer, 
rvotes’ : 3 
}, 
{ 
ncomment"™ : "free watches':, 
nauthor™ : "Alice’”, 
lvotes" : -1. 


} 
] 


} 
如 果 想 增加 第 一 个 评论 的 投票 数量 ， 可 以 这 么 做 ; 


> db.blog.update{({"post" : post id}, 
... {"$inc" : {"comments.0.votes" : 1}}) 


但 是 很 多 情况 下 ， 不 预先 查询 文档 就 不 能 知道 要 修改 数组 的 下 标 。 为 了 克服 这 个 困 
难 ，MongoDB 提供 了 定位 操作 符 "$"， 用 来 定位 查询 文档 已 经 匹配 的 元 素 ， 并 进行 
更 新 。 例 如 ， 要 是 用 户 John 把 名 字 改 成 Jim， 就 可 以 用 定位 符 替换 评论 中 的 名 字 : 


dbp.blog.update({"comments.author" : "John"}, 
... {"$set" : {"comments.$.author" : "Jim"}}) 


定位 符 只 更 新 第 一 个 匹配 的 元 素 。 所 以 ， 如 采 John 有 不 止 一 个 评论 ， 那 么 只 有 他 的 
第 一 条 评论 中 的 名 字 会 被 更 改 。 

5. 修改 器 速度 

有 的 修改 器 运行 比较 快 。$inc 能 就 地 修改 ， 因 为 不 需要 改变 文档 的 大 小 ， 只 需要 将 
键 的 值 修改 一 下 ， 所 以 非常 快 。 而 数组 修改 右 可 能 更 改 了 文档 的 大 小 ， 就 会 慢 一 些 
(nsset" 能 在 文档 大 小 不 发 生变 化 时 立即 修改 ， 否 则 性 能 也 会 有 所 下 降 )。 


MongoDB 预 留 了 些 补 白 给 文档 ， 来 适应 大 小 变化 (事实 上 ， 系 统 会 根据 文档 通常 
的 大 小 变化 情况 来 相应 地 调整 补 白 的 大 小 )， 但 是 要 是 超出 了 原来 的 空间 ， 最 后 还 是 
要 分 配 一 块 新 的 空间 。 空 间 分 配 除了 会 减 慢 速 度 ， 同 时 会 随 着 数组 变 长 ，MongoDB 
需要 更 长 的 时 间 来 遍历 整个 数组 ， 对 每 个 数组 的 修改 也 会 慢 下 来 。 


用 个 简单 Python 程序 就 能 验证 速度 的 差异 。 这 个 程序 插入 一 个 键 ， 并 增加 其 值 100 000 次 。 
from pymongo import Connection 
import time 


db = Connection{) .performance test 
db.drop_ collection("updates") 
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collection = db.updates 
collection.insert{({"x": 1}) 


# make sure the insert is complete before we start timing 
~ collection.find one{) 


start = time.time!{) 


for i in range{({100000): 
collection.update({}, {$inc” : {"x* : 1}}) 


# make sure the updates are complete before we stop timing 
collection.find one{) 


print time.time{) - start 


在 一 台 MacBook Air 上 ， 一 共 花 了 7.33 秒 。 每 秒 有 13 000 多 次 更 新 (对 于 一 台 虚 
弱 的 小 机 器 来 说 已 经 相当 不 错 了 )。 现 在 看 看 push 100 000 次 的 话 ， 会 有 什么 效果 : 


for i in range(100000): 
collection.update({}, {'$push’ : {'x’: : 1}}) 


程序 花 了 67.58 秒 ， 也 就 是 说 每 秒 更 新 不 到 1500 次 。 


"$push" 或 者 其 他 数组 修改 器 是 推荐 使 用 的 ， 有 些 场合 还 是 十 分 必要 的 ， 但 是 一 定 
要 留心 这 种 更 新 的 利 次 。 要 是 "$push" 成 为 瓶颈 ， 可 以 将 内 般 数 组 独立 出 来 ， 放 到 
单独 一 个 集合 里 面 。 


3.3.3 Upsert 


upsert 是 一 种 特殊 的 更 新 。 要 是 没有 文档 符合 更 新 条 件 ， 就 会 以 这 个 条 件 和 更 新 
文档 为 基础 创建 一 个 新 的 文档 。 如 果 找 到 了 匹配 的 文档 ， 则 正 第 更 新 。upsert 非 
常 方便 ， 不 必 有 预 置 集合 ， 同 一 套 代 码 可 以 既 创建 又 更 新 文档 。 


让 我 们 回 过 头 看 看 那个 记录 网 站 页 面 访问 次 数 的 例子 。 要 是 疫 有 upsert， 永 得 试 
着 查询 URL， 没 有 找到 就 得 新 建 一 个 文档 ， 找 到 的 话 就 增加 访问 次 数 。 要 是 把 这 个 
2 JavaScript 程序 (而 不 是 用 mongo scriptname.js 来 运行 的 一 系列 shell 命令 )， 

是 如 下 这 样 的 ; 


// check if we have an entry for this page 
blog = db.analytics.findone({url : "*/blog"}) 


// if we do, add one to the number of views and save 
if (blog) { 

blog.pageviews++; 

Gb.analytics.save (blog); 
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} 
/:/: otherwise, create a new document for this page 
else | 


db.analytics.save({url : "/blog", pageviews : 1}) 


这 就 是 说 如 果 有 人 访问 页 面 ， 我 们 得 去 数据 库 打 个 来 回 ， 然 后 选择 更 新 或 者 插入 。 要 
是 多 个 进程 同时 运行 这 段 代 码 ， 还 得 考虑 对 于 给 定 URL 不 能 同时 插入 文档 的 限制 。 


要 是 使 用 upsert， 既 可 以 避免 竞 态 问 题 ， 又 可 以 缩减 代码 量 (update 的 第 3 个 参 
数 表 示 这 是 个 upsert) : 


db.analytics.update{{"url" : "/blog"}, {"s$ine" : {'"visits" : 1}}, true) 


这 行 代码 和 之 前 的 代码 作用 完全 一 样 ， 但 它 更 高 效 ， 并 且 是 原子 性 的 ! 创建 新 文档 
会 将 条 件 文档 作为 基础 ， 然 后 将 修改 器 文档 应 用 于 其 上 上。 例如， 要 是 执行 一 个 匹配 
键 并 增加 对 应 键 值 的 upsert 操作 ， 会 在 匹配 的 基础 上 进行 增加 ， 

> db.math.remove|() 


> db.math.update({"count" : 25}, {"$ine" : {"count" : 3}}, true) 
> db.math.findonel() 


. " id" : ObjectId("4b3295f26ccé613d5ee93018f£"), 
recount" : 28 
} 
先是 remove 清空 了 集合 ， 里 面 就 设 有 文档 了 。 upsert 创建 一 个 键 "count" 的 值 
为 25 的 文档 ， 随 后 将 这 个 值 加 3， 最 后 得 到 "count" 为 28 的 文档 。 要 是 不 开局 
upsert 选项 ，{"count" : 25} 不 会 匹配 到 任何 文档 ， 也 就 没有 任何 更 改 。 


要 是 将 这 个 upsert (条 件 为 {count :25}) 再 次 运行 ， 还 会 创建 一 个 新 文档 。 这 是 
因为 没有 文档 满足 匹配 条 件 (唯一 的 文档 的 " count" 的 值 是 28)。 


save Sheli 帮助 程序 


save 是 一 个 shell 图 数 ， 可 以 在 文档 不 存在 时 插 人 和 人 ， 存 在 时 更 新 。 它 只 有 一 个 参数 : 
文档 。 要 是 这 个 文档 含有 " id" 键 ，save 会 调用 upsert。 否 则 ， 会 调用 插入 。 程 
序 员 可 以 非常 方便 地 使 用 这 个 函数 在 shell 中 快速 修改 文档 。 


> Var XxX = db.foo.findonel{) 
> XNUm = 42 


> db.foo,. save (x) 


要 是 不 用 save， 最 后 一 行 可 以 像 下 面 这 样 写 ， 但 很 嘿 嗪 : 
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db.foo.update({" id" : x. id}, x). 


3.3.4 ”更 新 多 个 文档 z 

默认 情况 下 ， 更 新 只 能 对 符合 匹配 条 件 的 第 一 个 文档 执行 操作 。 要 是 有 多 个 文档 符 
合 条 件 ， 其 余 的 文档 就 没有 变化 。 要 使 所 有 匹配 到 的 文档 都 得 到 更 新 ， 可 以 设置 
update 的 第 4 个 参数 为 true。 


今后 可 能 会 更 改 update 的 行为 (服务 器 可 能 默认 会 更 新 所 有 匹配 的 文档 ， 
只 有 第 4 个 参数 为 false 才 会 只 更 新 一 个 ) ， 所 以 建议 每 次 都 显 式 表明 要 
不 要 做 多 文档 更 新 。 


这 样 不 但 更 明确 地 指定 了 update 的 行为 ， 还 可 以 在 默认 参数 发 生变 化 时 
从 容 应 对 。 





多 文档 更 新 对 模式 迁移 非常 有 用 ， 还 可 以 在 对 特定 用 户 发 布 新 功能 的 时 候 使 用 。 例 
如 ， 假 设 要 给 所 有 在 特定 日 期 过 生日 的 用 户 一 份 礼物 ， 就 可 以 使 用 多 文档 更 新 ， 将 
"gift" 增加 到 他 们 的 账号 。 


> db.users.update{({birthday : "10/13/1978"}, 
... {$set : {gift : "Happy Birthday!"}}, false, true) 


这 样 就 给 生日 为 1978 年 10 月 13 日 的 所 有 用 户 文 档 添 加 了 "gift* 键 。 


想 要 知道 多 文档 更 新 到 底 更 新 了 多 少 文档 ， 可 以 运行 getLastError 命令 (或 许 叫 
做 "getLastopStatus" 更 为 合适 ) 。 键 "nu 的 值 就 是 要 的 数字 。 


> db.count .update ({x : 1}, {$inc : {x : 1}}, false, true) 
> db.runCommand ({getLastError : 1}) 


nerr* ; null, 
nupdatedExisting’* : true, 
nn 。 S, 

sok" : true 


) 
这 里 "sn 为 5， 说 明 有 5 个 文档 被 更 新 了 。 "UpdatedExisting" 为 true， 说 明 是 
对 已 有 的 文档 进行 更 新 。 关 于 数据 库 命令 及 其 作用 的 更 多 细节 ， 可 以 参考 第 7 章 。 


3.3.5 返回 已 更 新 的 文档 
用 getLastError 仅 能 获得 有 限 的 信息 ， 并 不 能 返回 已 更 新 的 文档 。 这 个 可 以 通过 
findAndModify 命令 来 做 到 。 
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findAndModify 的 调用 方式 和 普通 的 更 新 略 有 不 同 ， 还 有 扩 慢 ， 这 是 因为 它 要 等 
待 数 据 库 的 响应 。 这 对 于 操作 查询 以 及 执行 其 他 需要 取 值 和 赋值 风格 的 原子 性 操作 
来 说 是 十 分 方便 的 。 


假设 我 们 有 一 个 集合 ， 其 中 包含 以 一 定 顺序 和 运行 的 进程 。 其 中 每 个 进程 都 被 表示 为 
具有 如 下 形式 的 文档 : 


"idn : ObjectId() ， 
nostatus’’ : state, 
"priority" : N 

} 


"status" 是 一 个 字符 串 ， 可 以 是 "READY"、"RUNNING" 或 "DONE"。 要 找到 状态 为 
"READY" 的 具有 最 高 优先 级 的 任务 ， 运 行进 程 函 数 ， 然 后 更 新 其 状态 为 "DONE"。 
将 已 经 就 结 的 进程 按照 优先 级 排序 ， 然 后 将 优先 级 最 高 的 进程 的 状态 更 新 为 
"RUNNING" 。 完 成 了 以 后 ， 就 把 状态 改 为 "DONE"。 就 像 下 面 这 样 : 


ps = db.processes.find{{"status" : "RERDY") .sort ({"priority" : -1}). 
limit{1) .next{) 

db.processes.update{({* id : ps. id},{"s$set" : {"status" : "RUNNING"}}) 

do something {ps); 

db.processes.update({" id" : ps. id},{'"$set" : {"status" : "DONE"}}) 


这 个 算法 有 问题 ， 可 能 会 导致 竞 态 条 件 。 假 设 有 两 个 线程 正在 运行 。A 线程 读 取 了 文 
档 ，B 线程 在 A 状态 改 为 "RUNNING" 之 前 也 读 取 了 同一 个 文档 ， 这 样 两 个 线程 会 运 
行 相同 的 处 理 过 程 。 虽 然 可 以 通过 检查 状态 的 方式 来 避免 这 一 问题 ， 但 是 十 分 麻烦 : 


var cursor = db.processes.find{({"status" : "READY"}) .sort ({"priority" : 
-1}}) .limit (1); 
while ((Ps = cursor.next{(})) 1= null) { 
ps.update{({" ia : ps. id, "status’ : "READY"}, 
{Sset" : {status" : "RUNNING")})}); 


var lastOp = db.runCommand ({getlasterror : 1})); 


if {lastOp.n == 1) 1 
do something (ps); 
db.processes.update({" ia : ps. id},{"s$set" : {"status* : "DONE'"})}) 
break; 

} 

cursor = db.processes.find{({"status" : "READY"})) .sort{({'priority" : 


-1}) .limit (1); 


} 


这 样 也 有 问题 。 因 为 有 先 有 后 ， 很 可 能 一 个 线程 处 理 了 所 有 任务 ， 而 另外 一 个 就 傻 
傻 地 采 在 那里 。A 线程 可 能 会 一 直 占 用 着 进程 ，B 线程 试 着 抢占 失败 后 ， 就 让 A 线 
程 目 己 处 理 所 有 任务 了 。 这 种 情况 绝对 适合 用 findandModify。 这 样 就 可 以 在 一 
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个 操作 中 返回 结果 并 更 新 。 具 体 步骤 如 下 : 


> ps = db.runCcommand({"findAndModify" : "processes'", 
-. 。 。 mueryn : {"status" :+ "READY"}, 
. 。 SOrtn : TDprioricyn : -1}, 

. "update" :; {"$set" : {"status'" : "RUNNING"}}) 


{ 
"ok ; 1, 
"value" : { 
时 : ObjectId("4b3e7Tal8005cab32be6291f7"), 
"priority" : 1, 
"status'" : "READY" 
} 
} 


注意 ， 返 回 文档 中 的 状态 仍然 为 "READY"。 先 返回 结果 然后 更 新 。 要 是 再 看 看 集 
合 ， 会 发 现 "status" 已 经 更 新 成 了 "RUNNING": 


> db.processes.findonhne({" id" : ps.value. id}) 


( 
" an : ObjectIid("4b3e7al8005cab32be6291f£7"), 
"priority" : 1, 
"status" : "RUNNING" 

| 


这 样 的 话 ， 程 序 就 变 成 了 下 面 这 样 ; 


> ps = db.runcommand({"findAndModify" : "processes", 
. "query" : {'"status" : "READY"}, 
.aort" ; {"priority" :; =1}, 
. "update" : {"$set" : {"status" : "RUNNING"}}) .value 
> do something (ps) 
> db.process.update({" id" : ps. id}, {"$set" : {"status" : "DONE"}}) 


findaAandModify 既 有 "update 键 也 有 "remove" 键 。"remove"' 键 表示 将 匹配 到 
的 文档 从 集合 里 面 删除 。 例 如 ， 现 在 不 要 更 新 状态 了 ， 而 是 直接 删 掉 ， 就 可 以 像 下 面 
这 样 ; 
> ps = db.runCcommand({"findaAndModify" : "procesges'", 
. "query" : {"status'" : "READY"}, 
. "BOrt" : {"priority" ; -1}, 


. "remove' : true) .value 
> do something (ps) 


findandModify 命令 中 每 个 键 对 应 的 值 如 下 所 示 。 
* findAndModify 


字符 串 ， 集 合 名 。 


* auery 


查询 文档 ， 用 来 检索 文档 的 条 件 。 
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。 sort 


排序 结果 的 条 件 。 


»* update 
修改 器 文档 ， 对 所 找到 的 文档 执行 的 更 新 。 
* remove 


布尔 类 型 ,表示 是否 删除 文档 。 


® TNEew 


布尔 类 型 ， 表 示 返 回 的 是 更 新 前 的 文档 还 是 更 新 后 的 文档 。 软 认 是 更 新 前 的 文档 。 


1UPOQatLen 和 "remove" 必须 有 一 个 ， 也 只 能 有 一 个 。 要 是 匹配 不 到 文档 ， 这 个 命 
令 会 返回 一 个 错误 。 


这 个 命令 有 些 限 制 。 它 一 次 只 能 处 理 一 个 文档 ， 也 不 能 执行 upsert 操作 ， 只 能 更 
新 已 有 文档 。 


相 比 普通 更 新 来 说 ，findandModify 速度 要 慢 一 些 。 话 昌 这 么 说 ， 它 也 不 会 太 慢 ， 
大 概 耗 时 相当 于 一 次 查找 、 一 次 更 新 和 一 次 getLastError 顺序 执行 所 需 的 时 间 。 


3.4 瞬间 完成 


本 章 所 讨论 的 3 个 操作 (插入 、 删 除 和 更 新 ) 都 十 瞬间 完成 的 ， 这 是 因为 它们 都 不 
需要 等 待 数据库 响 应 。 这 并 不 是 异步 操作 ， 可 以 把 这 个 想象 成 发 出 后 就 不 再 操心 的 
动作 (后 面 简称 其 为 “ 离 强 之 第 ”)， 客 户 问 将 文档 发 送 给 服务 器 后 就 立刻 干 别 的 了 。 
客户 端 永 远 不 会 收 到 “好 的 ， 知 道 了 ”或 者 “有 问题 ， 能 重新 传送 一 遍 吗 ”这 类 响 
应 。 


这 个 特点 的 优点 很 明显 ， 速 度 快 ， 这 些 操 作 都 会 非常 快 地 执行 ， 它 只 会 受 客户 端 发 
送 的 速度 和 网 络 速度 的 制约 。 通 常会 工作 得 很 好 ， 但 有 时 也 会 出 什 子 : 服务 吕 崩 祺 
了 ， 网 线 被 老鼠 咬 断 了 ， 数 据 中 心 被 洪水 济 了 。 在 没有 服务 器 的 情况 下 ， 客 户 端 还 
是 会 发 送 写 操作 到 服务 器 的 ， 完 全 不 理会 到 底 有 没有 服务 器 。 这 对 有 些 应 用 是 可 以 
接受 的 ， 由 于 硬件 故障 丢失 几 秒 钟 的 日 志 记录 、 用 户 点 击 或 者 分 析 数 据 没什么 大 不 
了 的 。 但 是 对 于 另 一 些 应 用 (如 付费 系统 )， 这 样 就 不 好 玩 了 。 


3.4.1 安全 操作 


假设 要 完成 一 个 电子 商务 系统 。 如 果 某 人 i 订购 了 茶 物 ， 应 用 程序 应 该 花 点 时 间 确 保 订 单 
顺利 。 这 就 是 为 什么 要 给 这 些 操作 弄 个 “安全 ”版 本 ,执行 时 检查 到 了 错误 还 可 以 重 来 。 
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地 A MongoDB 的 开发 者 选择 了 不 安全 的 版 本 作为 默认 选择 ， 这 是 由 于 他 们 与 关系 
Ey 型 数据 库 打交道 的 经 验 所 导致 的 。 很 多 构建 在 关系 型 数据 库 之 上 的 应 用 程序 
a， 都 根本 不 关心 返回 的 代码 ， 也 不 会 检查 返回 码 ， 但 又 得 昔 苦 等 待 这 个 返回 码 ， 
这 会 造成 性 能 的 极 大 下 降 。MongoDB 让 用 户 来 选择 。 这 样 ， 像 一 些 收集 日 志 

记录 或 者 实时 数据 分 析 的 程序 ， 就 不 用 等 待 它们 根本 不 在 乎 的 返回 码 了 。 


安全 的 版 本 在 执行 完了 操作 后 立即 运行 getLastError 命令 ， 来 检查 古人 否 执 行 成 功 
( 详 见 7.1 节 有 关 命 令 的 更 多 信息 )。 了 驱动 程序 会 等 待 数 据 库 响应 ， 然 后 适当 地 处 理 
错误 ， 一 般 会 抛 出 一 个 可 被 捕获 的 异常 。 这 样 ， 开 发 者 就 能 用 自己 的 语言 以 比较 日 
然 的 方式 捕获 并 处 理 数据 库 错 误 了。 要 是 操作 成 功 ， getLastError 会 给 出 额外 的 
计 息 作为 响应 (例如 ， 对 于 更 新 或 删除 操作 ， 会 给 出 受到 影响 的 文档 数量 )。 


过 
getLastError 在 增强 安全 性 方面 还 包括 查看 操作 是 否 成 功 地 被 复制 这 一 
功能。 关于 这 一 功能 的 细节 ， 请 参见 9.4.4 节 。 


“安全 ”的 代价 就 是 性 能 。 即 便 忽略 客户 端 处理 异 常 的 开销 (不 同 语言 的 开销 不 一 样 ， 
但 一 般 都 不 是 轻 量 级 的 )， 等 待 数 据 库 响 应 本 身 的 时 间 比 只 发 送 消息 的 时 间 多 一 个 数 
量 级 。 所 以 ， 应 用 程序 需要 权衡 数据 的 重要 性 〈 以 及 丢失 后 的 后 果 ) 及 速度 需求 。 


| 


~ 拿 不 准时 ， 就 采用 安全 操作 。 要 是 速度 不 够 快 ， 就 让 一 些 不 太 重要 的 操作 
。。 变 成 离 弦 之 箭 。 


具体 来 说 : 


。 如 果 不 考 虑 安全 性 的 话 ， 就 只 用 离 弦 之 箭 的 方式 ; 

。 想 要 活 得 稍 长 一 点 ， 就 把 重要 的 用 户 数据 (帐号 、 信 用 卡号 、 电 子 邮件 ) 用 安全 的 
方式 操作 ， 其 余 的 数据 就 采用 离 弦 之 箭 的 方式 ， 

。 如 果 你 很 谨慎 ， 只 用 安全 操作 好 了 。 不 过 要 是 应 用 程序 自动 生成 数 以 百 计 的 零散 
信息 (例如 ， 页 面 、 用 户 或 广告 的 统计 信息 ) 需要 保存 ， 这 些 还 是 可 以 用 离 弦 之 
箭 的 方式 对 待 。 


3.4.2 ”捕获 “常规 镜 误 


安全 操作 不 仅 能 对 付 前 面 那 种 世界 末日 的 场景 ， 也 是 一 种 调试 数据 库 “ 奇 怪 ”行为 
的 好 方法 。 即 便 安全 操作 最 后 会 在 生产 环境 中 移 除 ， 但 是 在 开发 过 程 中 还 是 应 该 大 
量 地 使 用 。 这 样 可 以 避免 很 多 常见 的 数据 库 使 用 错误 ， 最 常见 的 就 是 键 重复 的 错误 。 


键 重复 错误 经 常 发 生 在 试图 插入 一 个 其 " ia' 值 已 被 占用 的 文档 。MongoDB 中 不 
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允许 在 一 个 集合 里 面 有 多 个 "_ia" 值 一 样 的 文档 。 如 果 做 的 是 安全 播 网 有 双生 了 锁 上 网 


重复 错误 ， 安 全 检查 会 发 现 这 个 服务 器 错误 ， 并 抛 出 异常 。 在 不 安全 模式 下 ， 数 据 
库 没有 响应 ， 所 以 可 能 根本 就 不 知道 插入 失败 了 。 


例如 ， 在 shell 中 ， 可 以 看 到 插入 "_ia" 值 相同 的 两 个 文档 是 行 不 通 的 : 


> db.foo.inserti{i{" id" : 123; *x"* : 1}) 

> db.foo.insert({" id" : 123, *x* : 了 有 

E11000 duplicate key error index: test.foo.$ id dup key: { : 123.0 } 
这 时 查看 集合 ， 会 发 现 只 有 第 一 个 文档 成 功 插入 了 。 注 意 ， 这 种 错误 也 可 由 唯一 索引 
导致 ， 并 不 一 定 都 由 "_id" 引发 。shell 总 会 检查 错误 ， 而 驱动 程序 中 检查 是 可 选项 。 


3.5 ”请 求 和 连接 

数据 库 会 为 每 一 个 MongoDB 数据 库 连 接 创 建 一 个 队列 ， 存 放 这 个 连接 的 请 求 。 当 
客户 端 发 送 一 个 请 求 ， 会 被 放 到 队列 的 末尾 。 只 有 队列 中 的 请 求 都 执行 完毕 ， 后 续 
的 请 求 才 会 执行 。 所 以 从 单个 连接 就 可 以 了 解 整个 数据 库 ， 并 且 它 总 是 能 读 到 自己 
写 的 东西 。 


注意 ， 每 个 连接 都 有 独立 的 队列 ， 要 是 打开 两 个 shell， 就 有 两 个 数据 库 连 接 。 在 一 
个 shell 中 执行 插入 ， 之 后 在 另 一 个 shell 中 进行 查询 不 一 定 能 得 到 插入 的 文档 。 然 
而 ， 在 同一 个 shell 中 ， 插 入 后 再 进行 查询 是 一 定 能 查 到 的 。 手 动 复 现 这 个 行为 并 不 
容易 ， 但 是 在 茵 忙 的 服务 器 上 ， 交 错 的 插入 / 查找 就 显得 稀 松 平常 了 。 当 开发 者 用 
一 个 线程 播 人 数据， 用 另 一 个 线程 检查 是 否 成 功 插入 时 ， 就 会 经 常 遇 到 这 种 问题 。 
有 那么 一 两 秒 钟 时 间 ， 好 像 根 本 就 没 插入 数据 ， 但 随后 数据 又 突然 冒 出 来 。 


使 用 Ruby、Python 和 Java 驱动 程序 时 要 特别 注意 这 种 行为 ， 因 为 这 几 个 语言 的 驱 
动 程序 都 使 用 了 连接 池 。 为 了 提高 效率 ， 这 些 驱 动 程序 都 和 服务 器 建立 了 多 个 连 
接 (一 个 连接 池 )， 并 将 请 求 分 散 到 这 些 连 接 中 去 。 好 在 它们 都 提供 一 些 机 制 来 确 
保 一 系列 的 请 求 都 由 一 个 连接 来 处 理 。MongoDB wiki (http://dochub.mongodb.org/ 
drivers/connections) 上 有 不 同 语言 连接 池 的 详细 信息 。 


" 档 | 43 


. Www.Linuxidc.com 


Wwww.LiNnuxidc.com 
第 4 章 


查询 





本 章 将 详细 介绍 查询 。 主 要 会 涵盖 以 下 几 个 方面 。 


。 使 用 find 或 者 findone 函数 和 查询 文档 对 数据 库 执行 查 询 。 

。 使 用 $ 条 件 查 询 实现 范围 、 集 合 包 含 、 不 等 式 和 其 他 查询 。 

。 有 些 查询 用 查询 文档 ， 甚 至 $ 条 件 语句 都 不 能 表达 。 对 于 这 种 复杂 的 查询 ， 可 以 
使 用 swhere 子 名 ， 用 强大 的 JavaScript 来 表达 。 

。 查询 将 会 返回 一 个 数据 库 游 标 , 游标 只 有 在 你 需要 的 时 候 才 会 惰性 地 批量 返回 文档 。 

。 还 有 很 多 针对 游标 执行 的 元 操作 ， 包 括 忽略 一 定数 量 的 结果 ， 或 者 限定 返回 结果 的 
数量 ， 还 有 对 结果 排序 。 


4.1 find 简介 


MongoDB 中 使 用 find 来 进行 查询 。 查 询 就 是 返回 一 个 集合 中 文档 的 子 集 ， 子 集合 
的 范围 从 0 个 文档 到 整个 集合 。fina 的 第 一 个 参数 决定 了 要 返回 哪些 文档 ， 其 形式 
也 是 一 个 文档 ， 说 明 要 执行 的 查询 细节 。 

空 的 查询 文档 { } 会 匹配 集合 的 全 部 内 容 。 要 是 不 指定 查询 文档 ， 默 认 就 是 { } 。 
例如 : 


> db.c.finad{) 
将 返回 集合 c 中 的 所 有 内 容 。 


当 我 们 开始 向 查询 文档 中 添加 键 / 值 对 时 ， 就 意味 着 限定 了 查找 的 条 件 。 对 于 绝 大 多 
数 类 型 来 说 ， 这 种 方式 很 简单 明了 。 整 数 匹配 整数 ， 布 尔 类 型 匹配 布尔 类 型 ， 字 符 串 
匹配 字符 串 。 查 询 简单 的 类 型 ， 只 要 指定 想 要 查找 的 值 就 好 了 ， 十 分 简单 。 例 如 ， 想 
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要 查找 所 有 "age" 的 值 为 27 的 文档 ， 直 接 将 这 样 的 键 / 值 对 每 进 夺 消 文 福 就 好 了 | 


> db.usere .find({fnager : 27}) 
要 是 想 匹 配 一 个 字符 串 ， 比 如 值 为 "joen 的 "username" 键 ， 那么 直接 写 就 好 了 : 
> db.users.find({"username" : "joe"}) 


可 以 通过 向 查询 文档 加 入 多 个 键 / 值 对 的 方式 来 将 多 个 查询 条 件 组 合 在 一 起 ， 会 
解释 成 “条 件 1 AND 条 件 2 AND…AND 条 件 N”。 例 如 ， 要 想 查 询 所 有 用 户 名 为 
“joe” 且 年 龄 为 27 岁 的 有 用户， 可 以 像 下 面 这 样 ， 


> db.users.find({"username" : "joe", "age" : 27})) 


4.1.1 指定 返回 的 键 

有 了 时 并 不 需要 将 文档 中 所 有 和 键 / 值 对 都 返回 。 遇 到 这 种 情况 ， 可 以 通过 fina (或 者 
findone) 的 第 二 个 参数 来 指定 想 要 的 键 。 这 样 做 既 会 节省 传输 的 数据 量 ， 又 能 节 
省 客户 端 解码 文档 的 时 间 和 内 存 消耗 。 


例如 ， 如 果 只 对 用 户 集 全 的 "username" 和 "email" 键 感 兴趣 ， 可 以 使 用 如 下 查 
询 返 回 这 些 键 ， 


> db.users.find({}, {"username" : 1, "email" : 1})) 
{ 
" id" : ObjectId("4ba0of0o0dfd22aa494fd523620"), 
username"™ : "joe", 
"email™" :; "joe®Bexample.com" 


} 
可 以 看 到 ，"_id" 这 个 键 总 是 被 返回 ， 即 便 是 没有 指定 也 一 样 。 


也 可 以 用 第 二 个 参数 来 剔除 查询 结果 中 的 某 个 键 / 值 对 。 例 如 ， 文 档 中 有 很 多 键 ， 
但 是 不 希望 结果 中 含有 "fatal weakness" 键 : 


> db.users.find({}, {"fatal weakness" : 0}) 
也 可 以 用 来 防止 返回 "iadn: 


> db.users.find({}, fnusernamen" : 1, " id" : 0}) 


{ 
} 


4.1.2 限制 
查询 使 用 上 还 是 有 些 限制 的 。 数 据 库 所 关心 的 查询 文档 的 值 必 须 是 常量 。( 在 你 自己 的 


"username" :; "joe'", 
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代码 里 可 以 是 正常 的 变量 )。 也 就 是 不 能 引用 文档 中 其 他 键 的 值 。 例 如 ， 要 想 保持 库 
存 ， 有 原 库存 "in stock" 和 已 出 售 "num sold" 两 个 键 ， 想 通过 比较 两 者 来 查询 : 

> db.stock.find({"in stock" : "this.num sold"}) // 不 可 行 
的 确 有 办 法 实现 类 似 的 操作 ( 详 见 4.4 市 )， 但 通常 可 以 略微 修改 一 下 文档 结构 ， 能 
通过 普通 查询 来 完成 操作 ， 这 样 性 能 也 会 有 所 改进 。 在 这 个 例子 中 ， 可 以 用 初始 存 
货 winitial stock" 和 存货 "in stock" 两 个 键 来 改写 文档 。 这 样 ， 每 当 有 人 购 
洋 物 品 ， 就 将 "in_stock" 减 去 1。 最 后 用 一 个 简单 的 查询 查看 哪 种 商品 已 脱销 : 


> db.stock.find{({"in stock" : 0}) 


4.2 查询 条 件 


查询 不 仅 能 像 前 面 说 的 那样 精确 匹配 ， 还 能 匹配 更 加 复杂 的 条 件 ， 比 如 范围 、OR 
子 句 和 取 反 。 


4.2.1 查询 条 件 


nSlt". HSlter. rgSat" 和 018SGLen 就 是 全 部 的 比较 操作 符 ， 分 别 对 应 <、< 二 、> 
和 >=。 可 以 将 其 组 合 起 来 以 便 查 找 一 个 范围 的 值 。 例 如 ， 查 询 在 18~30 岁 ( 含 ) 的 


> db.users.find{({"age" : {nSgten : 18, "$lte" : 30})}) 


这 样 的 范围 查询 对 日 期 尤为 有 用 。 例 如 ， 要 查找 在 2007 年 1 月 1 日 前 注册 的 人 ， 可 
以 像 下 面 这 样 : 


> start = new Date{"™01/01/2007") 
> db.users.find({"registered" : {"S$lt" : start})}) 


精确 匹配 日 期 是 徒劳 的 ， 因 为 日 期 只 精确 到 毫秒 。 通 常 只 是 想得到 关于 一 天 、 一 周 
或 者 是 一 个 月 的 数据 ， 这 样 范围 查询 就 很 有 必要 了 。 


对 于 文档 的 键 值 不 等 于 某 个 特定 值 的 情况 ， 就 要 使 用 另外 一 种 条 件 操作 符 "sne" 了 ， 
它 表 示 “ 不 相等  。 奋 是 想 要 查询 所 有 名 字 不 为 “joe” 的 用 户 ， 可 以 像 下 面 这 样 查询 : 


> db.users.find({nusernament : {nSne' : "joe'}}) 


"$ne" 能 用 于 所 有 类 型 的 数据 。 


4.2.2 ”OR 查询 
MongoDB 中 有 两 种 方式 进行 OR 查询 。"$in" 可 以 用 来 查询 一 个 键 的 多 个 值 。 
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"$or" 更 通用 一 些 ， 用 来 完成 多 个 键 值 的 任意 给 定 值 。 

对 于 单一 键 要 是 有 多 个 值 与 其 匹配 的 话 ， 就 要 用 "$in" 加 一 个 条 件数 组 。 例 如 ， 抽 奖 

活动 的 中 奖 号 码 是 725、542 和 390。 要 找 出 全 部 这 些 中 奖 数据 ， 可 以 构建 如 下 查询 : 
> db.raffle.find{({"ticket non : {"$in" : [725，542，390] }}) 


"$in" 非常 灵活 ， 可 以 指定 不 同 的 类 型 的 条 件 和 值 。 例 如 ， 在 逐步 将 用 户 的 ID 号 
迁移 成 用 户 名 的 过 程 中 ， 要 做 兼顾 二 者 的 查询 : 


> db.users.find{({"user id" ; {$in” : [12345, "joe"]}) 
这 会 匹配 "user id" 等 于 12345 的 文档 ， 也 会 匹配 "user jian 等 于 "joe" 的 文档 。 


要 是 "$in" 对 应 的 数组 只 有 一 个 值 ， 那 么 和 直接 匹配 这 个 值 效果 是 一 样 的 。 例 如 ， 
{ticket no : {$in : [725]}} 和 {ticket no : 725】] 的 效果 一 样 。 


与 "$in" 相对 的 是 "$nin"， 将 返回 与 数组 中 所 有 条 件 都 不 匹配 的 的 文档 。 要 是 想 
返回 所 有 没有 中 奖 的 人 ， 就 可 以 用 如 下 方法 进行 查询 : 


> db.raffle.find({"ticket no : {"Sninn : [725，542，390] }}) 
查询 将 会 返回 没有 那些 号 码 的 人 。 


"sin" 能 对 单个 键 做 OR 查询 ， 但 要 是 想 找到 "ticket no" 为 725 或 者 "winner'" 为 
true 的 文档 该 怎么 办 呢 ? 对 于 这 种 情况 ， 应 该 使 用 "$or"。"$or" 接受 一 个 包含 所 有 
可 能 条 件 的 数组 作为 参数 。 上 面 中 奖 的 例子 如 果 用 "$or" 改写 会 是 下 面 这 个 样子 的 : 


> db.raffle.find{({"$or" : [{"ticket no" : 725}, {winner" : true}]}) 


"$or" 可 以 含有 其 他 条 件 句 。 例 如 ， 如 果 想 要 将 "ticket_non 与 那 3 个 值 匹 配 上 ， 
外 加 "winner" 键 ， 就 可 以 这 么 做 ; 


> db.raffle.find({"$or” : [{'"ticket nonr : {"$in" : [725，542，390] })， 
{swinnezn : true}]}) 


使 用 普通 的 AND 型 的 查询 时 ， 总 是 想 尽 可 能 地 用 最 少 的 条 件 来 限定 结果 的 范围 。 
OR 型 的 查询 正 相 反 : 第 一 个 条 件 尽 可 能 地 匹配 更 多 的 文档 ， 这 样 才 是 最 为 有 效 有 的 。 


4.2.3 $not 
"snot" 是 元 条 件 句 ， 即 可 以 用 在 任何 其 他 条 件 之 上 上。 例如， 就 拿 取 模 运 算 御 "$mod" 来 


译注 1 : 也 就 是 说 将 最 严 苛 的 条 件 放置 在 最 前 面 。 
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> db.users.find({"id num" : {"$mod" : [5, 1]}}) 
上 面 的 查询 会 返回 "ida_num' 值 为 1、6、11、16 等 的 用 户 。 但 要 是 想 返 回 "ia_ 
num 为 2、3、4、5、7、8、9、10、12 等 的 用 户 ， 就 要 用 "$not" 了 : 


> db.users.find({"id num" : {"$not" : {$mod" : [5, 1]}}}) 


"snot" 与 正则 表达 式 联 合 使 用 的 时 候 极 为 有 用 ， 用 来 查找 那些 与 特定 模式 不 符 的 
文档 (4.3.2 节 会 详细 介绍 其 用 法 )。 


4.2.4 条件 句 的 规则 

如 果 上 比较 一 下 上 一 章 的 更 新 修改 器 和 前 面 的 查询 文档 ， 会 发 现 以 $ 开头 的 键 处 在 不 
同 的 位 置 。 在 查询 中 ， "sit" 在 内 层 文 档 ， 而 更 新 中 Noinc'" 则 是 外 层 文 档 的 键 。 
基本 可 以 肯定 : 条 件 句 是 内 层 文 档 的 键 ， 而 修改 器 则 是 外 层 文 档 的 键 。 


可 对 一 个 键 应 用 多 个 条 件 。 例 如 ， 要 查找 年 龄 为 20~30 的 所 有 用 户 ， 可 以 在 "age 
键 上 使 用 ni $sgt i 和 nglt": 


> db.users.find{{"age"™ : {"$]lt" : 30, "S$gt" : 20})}) 


一 个 键 可 以 有 多 个 条 件 ， 但 是 一 个 键 不 能 对 应 多 个 更 新 修改 器 。 例 如 ， 修 改 器 文档 
不 能 同时 含有 {"$inc" : {"age" : 1}，"$set" : {age : 40}}， 因 为 修改 
了 "age" 两 次 。 但 是 对 于 查询 条 件 句 就 没有 这 种 限定 。 


4.3 ”特定 于 类 型 的 查询 

如 第 2 章 所 述 ，MongoDB 的 文档 可 以 使 用 多 种 类 型 的 数据 。 其 中 有 一 些 在 查询 的 
时 候 会 有 特别 的 表现 。 

4.3.1 null 

null 就 有 点 奇怪 。 它 确实 能 匹配 自身 ， 所 以 要 是 有 一 个 包含 如 下 文档 的 集合 ; 


> db,c.findtl() 

{ " id" ; ObjectId("4ba0fodfd22aa494fd523621"), "y" : null } 
{ " id" ; ObjectId("4ba0fodfd22aa494fd523622"), "y" : 1 |] 

{ " id" ; ObjectId("4ba0f148d22aa494fd523623"), "y" : 2 |] 


就 可 以 按照 预期 的 方式 查询 "y" 键 为 null 的 文档 : 
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> db.c.find{({"y" : null)}) 
{ » id" : ObjectIid("4ba0fodfd22aa494fd523621"), "y’” : null } 


但 是 ，nul1 不 仅仅 匹配 自身 ， 而 且 匹 配 “ 不 存在 的 "。 所 以 ， 这 种 匹配 还 会 返回 缺 
少 这 个 键 的 所 有 文档 : 


> db.c.find{{"z" : null)}) 

{ " jian : ObjectIid("4ba0fodfd22aa494fd523621"), "y"” : null } 
{ "jian : ObjectIa("4ba0f0dafa22aa494fdq523622")，"y" : 1 

{ " id" : ObjectIid("4ba0f1i48d22aa494fd523623"), "y" : 2 } 


如 果 仅 仅 想 要 匹配 键 值 为 null 的 文档 ， 既 要 检查 该 键 的 值 是 否 为 null， 还 要 通过 
"sexists" 条 件 判定 键 值 已 经 已 存在 : 


> db.c.find({"z" : {"$ins : [null], "$exists" : true}}) 


不 幸 的 是 ， 没 有 "$eq" 操作 符 ， 所 以 看 上 去 有 些 费 解 ， 但 是 只 有 一 个 元 素 有 的 "$in" 
操作 符 效果 是 一 样 的 。 


4.3.2 正则 表达 式 
正则 表达 式 能 够 灵活 有 效 地 匹配 字符 串 。 例 如 ， 想 要 查找 所 有 名 为 Joe 豆 者 joe 的 
用 户 ， 就 可 以 使 用 正则 表达 式 执行 忽略 大 小 写 的 匹配 : 

> db.users.find({'"'name" : /joe/i}) 
系统 可 以 接受 正则 表达 式 标识 (i),， 但 不 是 一 定 要 有 。 现 在 匹配 了 各 种 大 小 写 组 
合 形式 的 joe， 要 是 还 要 匹配 各 种 大 小 写 组 合 形式 的 joey， 就 可 以 略微 修改 一 下 正 
则 表达 式 .: 

> db.users.find({"'name" : /joey?/i)) 
MongoDB 使 用 Perl 兼容 的 正则 表达 式 (PCRE) 库 来 匹配 正则 表达 式 ，PCRE 支持 


的 正则 表达 式 语 法 都 能 被 MongoDB 所 接受 。 建 议 在 查询 中 使 用 正则 表达 式 前 ， 先 
在 JavaScript shell 中 检查 一 下 语法 ， 确 保 匹 配 与 设想 的 一 致 。 


MongoDB 可 以 为 前 级 型 正则 表达 式 (比如 /^joey/) 查询 创建 索 5|， 所 
以 这 种 类 型 的 查询 会 非常 高 效 。 





正则 表达 式 也 可 以 匹配 自身 。 虽 然 几 乎 没有 人 直接 将 正则 表达 式 插入 到 数据 库 中 ， 
但 要 是 万 一 这 么 做 了 ， 也 是 可 以 用 自身 匹配 的 : 


> db.foo.insert ({"bar" : /baz/})) 
> db.foo.find({"bar" : /baz/)}) 
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" Td" : ObjectIid{("4b23c3ca7525f35f94b60a2d"), 
npar" : /baz/ 


4.3.3 查询 数组 


查询 数组 中 的 元 素 也 是 非常 容易 的 。 数 组 绝 大 多 数 情况 下 可 以 这 样 理解 : 每 一 个 元 
素 都 是 整个 键 的 值 。 例 如 ， 如 果 数 组 是 一 个 水 果 清 单 ， 比 如 下 面 这 样 : 


> db .food.insert {{"fruit" : ["apple", "banana", "peach"]}) 


下 面 的 查询 : 
> db.food.find{{"fruit" : "banana"}) 


会 成 功 匹 配 该 文档 。 这 个 查询 好 比 我 们 用 了 一 个 如 下 的 文档 (不 合法 的 ) 进行 的 碍 
询 : {"fruit" : "apple","fruit" : "banana", "fruit" : "peach"}。 
1. $all 


如 果 需 要 通过 多 个 元 素来 匹配 数组 ， 就 要 用 "$all" 了。 这样 就 会 匹配 一 组 元 素 。 
例如 ， 假 设 创建 包含 3 个 元 素 的 如 下 集合 : 


> db.food.insert({" id : 1, "fruit" : [apple", "banana", "peach"]}) 
> db.food.insert({" id" : 2, "fruit" : I"apple", "kumquat'", "orange"]}) 
> db.food.insert{{" id" : 3, "fruit" : ["cherry’", "banana", 'apple"]}) 


要 找到 既 有 "apple" 又 有 "banana" 的 文档 ， 就 得 用 "$all" 来 查询 : 
> db.food.find{{fruit : {$all : I["apple", "banana"] }}) 


{" _ id" : 1, "fruit" : ["apple", "banana", "peach"]} 
{" id : 3, "fruit" : ["cherry", "banana", "apple"]} 


顺序 无 关 紧 要 。 注 意 ， 第 二 个 结果 中 "bananan 在 "apple" 之 前 。 要 是 对 只 有 一 个 元 素 
的 数组 使 用 "$all"， 就 和 不 用 "$all" 一 样 了 。 例 如 ， {fruit:{$all: ['apple']} 和 
{fruit :'apple' } 的 查询 效果 是 等 价 的 。 


也 可 以 使 用 完整 的 数组 精确 匹配 。 但 是 ， 精 确 匹配 对 于 有 缺少 或 者 元 余 元 素 的 情况 
就 不 大 灵 了 。 例 如 ， 下 面 的 方法 会 匹配 之 前 的 第 一 个 文档 


> db.food.find{({"fruit" : ["apple", "banana", "peach"]}) 
但 是 下 面 这 个 就 不 会 匹配 : 


> db.food.find({"fruit" : [apple", "banana"]}) 
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这 个 亦 不 会 匹配 ; 

> db.food.find({"fruit" : ["banana", "apple"/y—"peach"]/)) 
要 是 想 查询 数组 指定 位 置 的 元 素 ， 则 需 使 用 key. index 语法 指定 下 标 ， 例 如 : 

> db.food.find({"fruit.2" : "peach"}) 
数组 下 标 都 是 从 0 开始 的 ， 所 以 上 面 的 表达 式 会 用 数组 的 第 3 个 元 素 和 "peach" 匹配 。 
2. $size 
"$size" 对 于 查询 数组 来 说 也 是 意义 非 几 ， 顾 名 思 义 ， 可 以 用 其 查询 指定 长 度 的 数 
组 。 见 下 面 的 例子 : 

> db.food.find({"fruit" : {"S$size" : 3}}) 
一 种 常见 的 查询 需求 就 是 需要 一 个 长 度 范围 。"$size" 并 不 能 与 其 他 查询 子 句 组 合 
(比如 "sgt")， 但 是 这 种 查询 可 以 通过 在 文档 中 添加 一 个 "size" 键 的 方式 来 实现 。 
这 样 每 一 次 向 指定 数组 添加 元 素 的 时 候 ， 同 时 增加 "size" 的 值 。 原 来 这 样 的 更 新 ;: 


> db.food.update({"$push" : {"fruit" : "strawberry"}}) 
就 会 变 成 下 面 这 样 : 
> db.food.update ({"$push" : {"fruit" : "strawberry"},"s$inc" : {"size" : 1}}) 


增加 的 操作 非常 快 ， 所 以 对 性 能 的 影响 微乎其微 。 这 样 存储 文档 后 ， 就 可 以 像 下 面 
这 样 查 询 了 : 
> db.food.find({"size" : {"$gt" : 3}}) 
不 幸 的 是 ， 这 种 技巧 并 不 能 与 "$addToset" 操作 符 同时 使 用 。 
3. $slice 操 作 符 


本 章 前面 已 经 提 及 ，finda 的 第 二 个 参数 是 可 选 的 ， 可 以 指定 返回 哪些 键 。 
ngsslicen 返回 数组 的 一 个 子 集 合 。 


- 例如 ， 假 设 现在 有 一 个 博客 文章 的 文档 ， 要 想 返 回 前 10 条 评论 ， 可 以 : 


> db.blog.posts.findone (criteria, {'"comments" : {"$slice" : 10}}) 
也 可 以 返回 后 10 条 评论 ， 只 要 用 -10 就 可 以 了 : 


> db.blog.posts.findone (criteria, {"comments" : {"$slice" : -10}}) 
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"Sslicen" 也 可 以 接受 偏 移 值 和 要 返回 的 元 素数 量 ， 来 返回 中 间 的 结 采 : 
> db.blog.posts.findone (criteria, {"comments" : {'"$slice" : [23, 10] }}) 


这 个 操作 会 跳 过 前 23 个 元 素 ， 返 回 第 24 个 ~ 第 33 个 元 素 。 如 果 数 组 不 够 33 个 元 
素 ， 则 返回 第 23 个 元 素 后 面 的 所 有 元 素 。 . 


除非 特别 声明 ， 否 则 使 用 "$slice" 时 将 返回 文档 中 的 所 有 键 。 别 的 键 说 明 符 都 是 默 
认 不 返回 未 提 及 的 键 ， 这 点 与 "$slice" 不 太一 样 。 例 如 ， 有 如 下 的 博客 文章 文档 : 


{ 


"id™ 3 ObjectId{"4b2d75476cc613d5ee930164")， 
ntitle" : "A blog post', 
loontent 条 。 1 a 11 
rcomments" : [ 
name 有 » joe i . 
"email" : "joe@example.com', 
icontent" : "nice post." 
和 
| 
mame™ 2 Thob”, 
remail’* : "bob@example.com!', 
rcontent" : ‘lgood post." 
}3 
] 
} 
并 且 我 们 用 "$slice" 来 获取 最 后 一 条 评论 ， 可 以 这 样 : 
> db.blog.posts.findOne (criteria, {"comments" : {"$slice"” : -1}}) 
{ 
" id" : ObjectIid("4b2d75476cc613d5ee930164"),， 
"title" : *A blog post’", 
"content® ; %...™, 
rcomments" : [ 
"name" : bob", 
Hemail" : "bob@example.com", 
"content'™" : good post.”" 
} 


} 
"title" 和 "content" 都 被 返回 了 ， 即 便 是 并 没有 显 式 地 出 现在 键 说 明 符 中 。 


4.3.4 查询 内 赃 文 档 
有 两 种 方法 查询 内 艇 文档 : 查询 整个 文档 ， 或 者 只 针对 其 键 / 值 对 进行 查询 。 
查询 整个 内 符 文 档 与 普通 查询 完全 相同 。 例 如 ， 有 如 下 文档 : 
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"mame" ; { 
"first" > JIOen ， 
HJast" : 1Schmoe" 
)s 
rage" : 45 
} 
要 查寻 姓名 为 Joe Schmoe 的 人 可 以 这 样 ; 
> db.people.find{({"name" : {"first" : "Joe", "last'" : "Schmoe"}}) 


然而 ， 如 果 Joe 决定 添加 一 个 代表 中 间 名 的 键 ， 这 个 查询 就 不 好 用 了 ， 因 为 那样 
就 不 匹配 整个 内 骸 文 档 了 。. 这 种 查询 还 是 与 顺序 相关 的 ，{ "last" : "Schmoe",， 
"first" : "Joe"} 就 什么 都 匹配 不 到 。 


如 果 人 允许 的 话 ， 通 闸 只 针对 内 赂 文档 的 特定 键 值 进行 查询 才 是 比较 好 的 做 法 。 这 样 ， 
即便 数据 模式 改变 ， 也 不 会 导致 所 有 查询 因为 要 精确 匹配 而 一 下 子 都 挂 掉 。 我 们 可 
以 使 用 乓 表示 法 查询 内 岁 的 键 : 


> dbp.people.find{({"name.first" : "Joe", "name.last" : "Schmoe"}) 


现在 ， 如 果 Joe 增加 了 更 多 的 键 ， 这 个 查询 依然 会 匹配 他 的 姓 和 名 。 

这 种 点 表示 法 是 查询 文档 区 别 于 其 他 文档 的 主要 特点 。 查 询 文档 可 以 包含 点 ， 来 表 
达 “ 深 入 内 磐 文档 内 部 ”的 意思 。 点 表示 法 也 是 待 插入 的 文档 不 能 包含 “.” 的 原 
因 。 将 键 作 为 URL 保存 的 时 候 经 常会 遇 到 此 类 问题 。 一 种 解决 方法 就 是 在 插入 前 或 
者 提取 后 执行 一 个 全 局 替换 ， 将 “.” 替换 成 一 个 URL 中 的 非法 字符 。 

当 文 档 结构 变 得 更 加 复杂 以 后 ， 内 瞬 文 档 的 匹配 需要 些许 技巧 。 例 如 ， 假 设 有 博客 
文章 若干 ， 要 找到 由 Joe 发 表 的 5 分 以 上 的 评论 。 博 客 文章 的 结构 如 下 例 所 示 : 


> db.blog.finad!() 


"COnLent” ; ".. 
"Comments'" : I[ 
"author” ; "joe", 
"score™ : 3, 
comment" : "nice post" 
"author"” : "mary", 
"score"” : 6, 
"Comment" : "terrible post!' 


] 
} 


不 能 直接 用 db.blog.find({"cormments":{"author":"joe", "score":{"$gte":5}}}) 
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来 查寻 。 内 爸 文 档 匹 配 要 求 整个 文档 完全 匹配 ， 而 这 不 会 匹配 "gO@mmeng' 键 .全 
用 db.blog.find({"comments.author" : "joe", "ceomments .scoren 

{"sgten : 5}}) 同样 也 不 会 达到 目的 。 因 为 符合 author 条 件 的 评论 和 符合 score 
条 件 的 评论 可 能 不 是 同一 条 评论 。 也 就 是 说 ， 会 返回 刚才 显示 有 的 那个 文档 。 因 为 
"author" : "joer" 在 第 一 条 评论 中 匹配 了 ，"score" : 6 在 第 二 条 评论 中 匹配 了 。 


要 正确 地 指定 一 组 条 件 ， 而 不 用 指定 每 个 键 ， 要 使 用 "$elemMatch"。 这 种 模糊 的 
命名 条 件 句 能 用 来 部 分 指定 匹配 数组 中 的 单个 内 人 符 文档 的 限定 条 件 。 所 以 正确 的 写 
法 应 该 是 这 样 的 ; 


> db.blog.find({"comments" : {"$elemMatch" : {"author" : "joe", 
"score" : {"Sgten : 5S}}}}) 


"$elemMatch" 将 限定 条 件 进 行 分 组 ， 仅 当 需 要 对 一 个 内 租 文档 的 多 个 键 操作 时 才 会 


4.4 $where 查 询 


键 / 值 对 是 很 有 表现 力 的 查询 方式 ， 但 是 依然 有 些 需 求 它 无 法 表达 。 当 其 他 方法 都 
败 下 阵 的 时 候 ， 就 轮 到 "S$where" 子 句 了 ， 用 它 可 以 执行 任意 JavaScript 作为 查询 
的 一 部 分 。 这 就 使 得 查询 能 做 (几乎 ) 任何 事情 。 


最 典型 的 应 用 就 是 比较 文档 中 的 两 个 键 的 值 是 否 相 等 。 例 如 ， 有 个 条 目 列表 ， 如 果 
其 中 的 两 个 值 相等 则 返回 文档 。 请 看 如 下 示例 ， 

> db.foo.insert({"apple" : 1, "banana" : 6, "peach" : 3]) 

> db.foo.insert({"apple" : 8, "spinach" : 4, "watermelon" : 4}) 
第 二 个 文档 中 ，"spinach" 和 "watermelon" 的 值 相同 ， 所 以 需要 返回 该 文档 。 
MongoDB 似乎 永远 不 会 提供 一 个 $ 条 件 符 来 做 这 个 ， 所 以 只 能 用 "$where" 子 铝 
借助 JavaScript 来 完成 了 : 


> db.foo.find({"s$where" : function () { 
. for (var current in this) { 
for (var other in this) { 
if (current l= other && this[lcurrent] == this[lother])} { 
return true; 
} 
} 


. return falase; 
如 东 国 数 返 回 true， 文 档 就 做 为 结果 的 一 部 分 被 返回 如 果 为 false, 则 不 然 。 
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前 面 用 的 是 一 个 函数 ， 也 可 以 用 一 个 字符 串 来 指定 "$where" 查询 。 下 面 两 种 表达 
是 完全 等 价 的 : 


> db.foo.find({"$where" : "this.x + this.y == 10"}) 
> db.foo.find({"$where" : "function{() { return this.x + this.y == 10; }"}) 


不 是 非常 必要 时 ， 一定 要 避免 使 用 "$where" 查询 ， 因 为 它们 在 速度 上 要 比 常规 查询 
慢 很 多 。 每 个 文档 都 要 从 BSON 转换 成 JavaScript 对 象 ， 然 后 通过 "$wherer 的 表达 
式 来 运行 。 同 样 还 不 能 利用 索引 。 所 以 ， 只 在 走投无路 时 才 考 虑 "$where" 这 种 用 
法 。 将 第 规 查 询 作 为 前 置 过 滤 ， 与 "$where" 组 合 使 用 可 以 不 策 牧 性能。 如果 可 能 的 
话 ， 用 索引 根据 非 "$where" 子 句 进行 过 站 ，"$where" 只 用 于 对 结果 进行 调 优 。 


另 一 种 复杂 查询 的 方式 是 利用 MapReduce， 下 一 章 会 进行 介绍 。 


4.5 游标 


数据 库 使 用 游标 来 返回 fina 的 执行 结果 。 客 户 端 对 游标 的 实现 通常 能 够 对 最 终结 
果 进 行 有 效 的 控制 。 可 以 限制 结果 的 数量 ， 略 过 部 分 结果 ， 根 据 任意 方向 任意 键 的 
组 合 对 结果 进行 各 种 排序 ， 或 者 是 执行 其 他 一 些 功 能 强大 的 操作 。 


要 想 从 shell 中 创建 一 个 游标 ， 首 先 要 对 集合 填充 一 些 文档 ， 然 后 对 其 执行 查询 ， 并 
将 结果 分 配给 一 个 局 部 变量 (用 var 声明 的 变量 就 是 局 部 变量 )。 这 里 ， 先 创建 一 
个 简单 的 集合 ， 而 后 做 个 查询 ， 并 用 cursor 变量 保存 结果 : 

> for{i=0; i<100; i++) { 

.. db.c.insert({x : i}); 

> Es CUISOT = db.collection.find(); 
这 么 做 的 好 处 是 一 次 可 以 查看 一 条 结果 。 如 果 将 结果 放 在 全 局 变量 或 者 就 没有 放 在 
变量 中 ，MongoDB shell 会 自动 从 代 ， 自 动 显示 最 开始 的 若干 文档 。 也 就 是 在 这 之 
前 我 们 看 到 的 种 种 例子 ， 一 般 大 家 只 想 通 过 shell 看 看 集合 里 面 有 什么 ， 而 不 是 想 在 
其 中 实际 运行 程序 ， 这 样 设计 也 就 很 合适 。 z 
要 迭代 结果 ， 可 以 使 用 游标 的 next 方法 。 也 可 以 使 用 hasNext 来 查看 有 疫 有 其 他 
结果 。 和 典型 的 结果 过 历 如 下 : 


> while (cursor .hasNext ()) { 
.. Obj] = cursor.next () ; 
. // do stuff 


oa 
cursor .hasNext () 检查 是 否 有 后 续 结果 存在 ， 然 后 用 cursor .next () 将 其 获得 。 
游标 类 还 实现 了 迭代 器 接口 ， 所 以 可 以 在 foreach 循环 中 使 用 。 
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> Var cursor = db.people.find({(); 
> Cursor.forEach (function{(x)} { 
. print (x.name); 


当 调 用 find 的 时 候 ，shell 并 不 立即 查询 数据 库 ， 而 是 等 等 真正 开始 要 求 获 得 结 雪 的 时 
修 才 发 送 查 询 ， 这 样 在 执行 之 前 可 以 给 查询 附加 额外 的 选项 。 几 平 所 有 游标 对 象 的 方法 
都 返回 游标 本 身 ， 这 样 就 可 以 按 任意 顺序 组 成 方法 链 。 例 如 ， 下 面 几 种 表达 是 等 价 的 : 


> var cursor = db.foo.find{) .sort{({"x" : 1}) .limit (1) .skip {10); 
> var cursor = Gb.foo.find{) .limit(1).sort{({"x" : 1}).skip{(10); 
> Var cursor = Gb.foo.find{() .skip(10) .limit(1]) .sort({"x*” : 1}}); 


此 时 ， 查 询 还 没有 执行 ， 所 有 这 些 函 数 都 只 是 构造 查询 。 现 在 ， 假 设 我 们 执行 
如 下 操作 ; 


> Cursor.hasNext () 


这 时 ， 查 询 被 发 往 服务 器 。shell 立刻 获取 前 100 个 结果 或 者 前 4 MB 数据 (两 者 之 
中 较 小 者 ) ， 这 样 下 次 调用 next 或 者 hasNext 时 就 不 必 兴 师 动 众 跑 到 服务 右上 去 
了 。 客 户 端 用 光 了 第 一 组 结果 ，shell 会 再 一 次 联系 数据 库 ， 并 要 求 更 多 的 结果 。 这 
个 过 程 一 直 会 持续 到 游标 耗 尽 或 者 结 采 全 部 返回 。 


4.5.1 limit、skip 和 sort 


最 党 用 的 查询 选项 就 是 限制 返回 结果 的 数量 ， 忽 略 一 定数 量 的 结果 并 排序 。 所 有 这 
些 选 项 一 定 要 在 查询 被 派发 到 服务 絮 之 前 添加 。 


要 限制 结果 数量 ， 可 在 find 后 使 用 1imit 国 数 。 例 如 ， 只 返回 3 个 结果 ， 可 以 这 样 : 
> db.c.findq() .Limit(3) 
要 是 匹配 的 结果 不 到 3 个 ， 则 返回 匹配 数量 的 结果 。1imit 指定 的 是 上 限 ， 而 非 下 限 。 
skip 与 limit 类 似 : 
> db.c.find{() .skip(3) 


上 面 的 操作 会 略 过 前 三 个 匹配 的 文档 ， 然 后 返回 余下 的 文档 。 如 采集 合 里 面 能 匹配 
的 文档 少 于 3 个 ， 则 不 会 返回 任何 文档 。 


sort 用 一 个 对 象 作 为 参数 : 一 组 键 / 值 对 ， 键 对 应 文档 的 键 名 ， 值 代表 排序 的 方向 。 
排序 方向 可 以 是 1 (升序 ) 或 者 -1 (降序 )。 如 果 指 定 了 多 个 键 ， 则 按照 多 个 键 的 顺 
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序 逐 个 排序 。 例 如 ， 要 按照 "username" 升序 及 "agen 降 记 排放 7 了 /和 科 写 双 
> db.c.find() .sort ({username : 1, age : -1)) 


这 3 个 方法 可 以 组 合 使 用 。 这 对 于 分 页 非常 有 用 。 例 如 ， 你 有 个 在 线 商 店 ， 有 人 和 想 
搜索 mp3。 若 是 想 每 页 返回 50 个 结果 ， 而 且 按 照 价格 从 高 到 低 排序 ， 可 以 这 样 写 : 


> db.stock.find({"desc" : "mp3"})) .limit (50) .sort ({"price" : -1})) 


反击 “下 一 页 ”可 以 看 到 更 多 的 结果 ， 通 过 skip 也 可 以 非 沼 简单 地 实现 ， 只 需要 
略 过 前 50 个 结果 就 好 了 (已 经 在 第 一 页 显示 了 ) : 


> db.stock.find({"desc"™ : "mp3"}).1imit(50) .skip(50) .sort ({"price" : -1}) 


然而 ， 略 过 过 多 的 结果 会 导致 性 能 问题 ， 所 以 建议 尽量 避免 。 


比较 顺序 


MongoDB 处 理 不 同类 型 的 数据 是 有 一 个 顺序 的 。 有 时 候 一 个 键 的 值 可 能 是 多 种 类 
型 的 ， 例 如 ， 整 数 和 布尔 类 型 ， 或 者 字符 串 和 nu11。 如 果 对 这 种 混合 类 型 的 键 排 
序 ， 其 排序 顺序 是 预先 定义 好 的 。 从 小 到 大 ， 其 顺序 如 下 : 


(1) 最 小 值 

(2) null 

(3) 数字 ( 整 型 、 长 整 型 、 双 精度 ) 
(4) 字符 串 

(5) 对 象 / 文档 
(6) 数组 

(7) 二 进 制 数据 
(8) 对 象 ID 

(9) 布尔 型 

(10) 日 期 型 
(11) 时 间 惟 
(12) 正则 表达 式 
(13) 最 大 值 


4.5.2 ”避免 使 用 Skip 了 略 过 大 量 结果 


用 skip 略 过 少量 的 文档 还 是 不 错 的 。 但 是 要 是 数量 非常 多 的 话 ，skip 就 会 变 得 很 慢 
【几乎 每 个 数据 库 都 有 这 个 问题 ， 不 仅仅 是 MongoDB)， 所 以 要 尽量 避免 。 通 常 可 以 向 
文档 本 身 内 置 查询 条 件 ， 来 避免 过 大 的 skip， 或 者 利用 上 次 的 结果 来 计算 下 一 次 查询 。 
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1. 不 用 skip 对 结果 分 页 
最 简单 的 分 页 方法 就 是 用 1imit 返回 结果 的 第 一 页 ， 然 后 将 每 个 后 续 页 面 作 为 相对 
于 开始 的 偏 移 量 返回 。 


// do not use: slow for large skips 

var pagel = db.foo.findl{(criteria) .limit{100) 

var page2 db.foo.find{(criteria) .Skipt100) .1imit{100) 
var page3 Gb.foo.find{(criteria) .skip{(200) .limit(100) 


> 
> 
> 
> 


然而 ， 一 般 来 讲 可 以 找到 一 种 方法 实现 不 用 skip 的 分 页 ， 这 取决 于 查询 本 身 。 例 
如 ， 要 按照 "date" 降序 显示 文档 。 可 以 用 如 下 方式 获取 结 采 的 第 一 页 : 


> var pagel = Gb.foo.find{().sort({'"date" : -1)).1imit(100) 


然后 ， 可 以 利用 最 后 一 个 文档 中 "date" 的 值 作 为 查询 条 件 ， 来 获取 下 一 页 : 


var latest = null.; 


// display first page 

while {pagel.hasNext ()) { 
latest = pagel .next{),，; 
display (latest),; 


} 


// get next page 


var page2 = db.foo.find{({"date" : {"S$gt" : latest.date}}); 
page2.sort({"date" : -1}).1limit{(100),; 

这 样 查询 中 就 没有 skip 了 。 

2. 随机 选取 文档 


从 集合 里 面 随机 挑选 一 个 文档 算是 个 常见 问题 。 最 笨 的 〈 也 是 很 慢 的 ) 做 法 就 是 先 计 
算 文档 总 数 ， 然 后 选择 一 个 从 0 到 文档 数量 之 间 的 随机 数 ， 利 用 fina 做 一 次 查询 ， 
略 过 这 个 随机 数 那 么 多 的 文档 ， 这 个 随机 数 的 取 值 范围 为 0 到 集合 中 文档 的 总 数 。 

// do not use 

var total = db.foo.countt{) 


> 
> 
> var random = Math.floor{Math.random{()*total) 
> db.foo.find{() .skip (random) .limit (1) 


这 种 选取 随机 文档 的 做 法 实在 是 低 效 : 首先 得 计算 总 数 (要 是 有 查询 条 件 就 会 很 费 
时 ) ， 然 后 大 量 的 skip 也 会 非常 耗 时 。 
略微 动 动脑 筋 ， 从 集合 里 面 查找 一 个 随机 元 素 还 是 好 得 多 的 办 法 的 。 秘 诀 就 是 在 
播 入 文档 时 给 每 个 文档 都 添加 一 个 额外 的 随机 键 。 例 如 在 shell 中 ， 可 以 用 Math. 
random() (产生 一 个 0~1 的 随机 数 ) : 
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> db.people.insert({'name" : "joe", ‘random" : Math.random()}) 
> db.people.insert({"name" : "john’*, "random’" : Math.random()}) 
> db.people.insert ({"name" : "jim", "random" : Math.random() }) 


这 样 ， 想 要 从 集合 中 查找 一 个 随机 文档 ， 只 要 计算 个 随机 数 并 将 其 作为 查询 条 件 就 
好 了 ， 完 全 不 用 Skip: 


> Var random = Math.random!{) 
> result = db.foo.findone({'random" : {'"$gt" : random}}) 


也 有 偶尔 遇 到 随机 数 比 所 有 集合 里 面 存 着 的 随机 值 大 的 情况 :， 这 时 就 没有 结果 返回 
了 。 那 就 换个 方向 ， 这 样 就 万 事 大 吉 了 : 


> if (result == null) { 
. result = db.foo.findOone({"random" : {"$1lt" : random}}) 


要 是 集合 里 面 本 就 没有 文档 ， 则 会 返回 nul1， 这 说 得 通 。 


这 种 技巧 还 可 以 和 其 他 各 种 复杂 的 查询 一 同 使 用 ， 仅 需要 确保 有 包含 随机 键 的 索引 
即 可 。 例 如 ， 想 随机 找 一 个 加 州 的 水 暖 工 ， 可 以 对 nprofession"、 "state" 和 
"random" 建立 索引 : 


> db.people.ensurelindex({"profession" : 1, "state" : 1, "random" : 1}) 


这 样 就 能 很 快 得 出 一 个 随机 结果 了 (关于 索引 ， 详 见 第 5 章 )。 
4.5.3 ”高 级 查询 选项 
查询 分 为 包装 的 和 普通 的 两 类 。 普 通 的 查询 就 像 下 面 这 个 : 
> Var cursor = db.foo.find({"foo" : "bar")}) 
有 有 几 个 选项 用 于 包装 查询 。 例 如 ， 假 设 我 们 执行 一 个 排序 : 


> var cursor = db.foo.find({"foo" : "bar"}).sort({"x" : 1}) 


实际 情况 不 是 将 {"foo" : "bar"}) 作为 查询 直接 发 送 给 数据 库 ， 而 是 将 查询 包 
装 在 一 个 更 大 的 文档 中 。shell 会 把 查询 从 {"foo" : "bar"} 转换 成 {"$query" 
:{"foo" : "bar"}, "Sorderby" : {"x" : 1}}。 


绝 大 多 数 张 动 程 序 有 些 辅助 措施 四 查询 添加 各 种 选项 。 下 面 列举 了 其 他 一 些 有 用 的 选项 。 


。 S$maxscan : integer 


译注 1: 还 会 有 极 少 数 相等 的 时 候 ，$1lte 可 能 更 加 严谨 。 
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指定 查询 最 多 扫描 的 文档 数量 。 FA 刻 ¢ 网 
* smin : document A/ | 
查询 的 开始 条 件 。 

* Smax : document 

查询 的 结束 条 件 。 


ea。 上 hnt : document 


指定 服务 器 使 用 哪个 索引 进行 查询 。 


。 S$explain : boolean 
获取 查询 执行 的 细节 (用 到 的 索引 、 结 果 数量 、 耗 时 等 )， 而 并 非 真正 执行 
查询 。 


* $snapshot : boolean 


确保 查询 的 结果 是 在 查询 执行 那 一 刻 的 一 致 快照 。 详 见 下 一 六 。 


4.5.4 ”获取 一 致 结果 
数据 处 理 通常 的 一 种 做 法 就 是 先 把 数据 从 MongoDB 中 取出 来 ， 然 后 经 过 某 种 变换 ， 
最 后 再 存 回去 : 


Cursor = db.foo.find'(); 


while (cursor.hasNext()) { 
var doc = Cursor.next (); 
doc = process (doc); 
db .foo.save (doc),; 


} 
结果 比较 少时 还 好 ， 文 档 较 多 时 就 玩 不 转 了 。 为 什么 呢 ? 想象 一 下 文档 究竟 是 如 何 
存储 的 吧 。 可 以 将 集合 看 做 一 大 堆 文档 ， 看 上 去 就 像 图 4-1。 雪 花 代表 文档 ， 因 为 
每 一 个 文档 都 是 美丽 且 唯 一 的 。 





图 4-1: 待 查询 的 集合 
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这 样 ， 做 查找 的 时 候 ， 从 集合 的 开头 返回 结果 ， 并 向 右 移 动 。 程 序 获取 前 100 个 文 
档 并 处 理 。 当 要 将 其 保存 回 数据 库 时 ， 如 果 文 档 体 积 增加 而 预 留 空间 不 足 ， 就 像 图 


4-2， 则 需要 将 其 移动 。 通 常会 将 其 挪 至 集合 的 末尾 处 (如 图 4-3 所 示 )。 


江 





图 4-3: MongoDB 会 移动 不 能 放 在 原 处 的 新 文档 


接着 ， 米 续 获 取 大 量 的 文档 。 如 此 往复 ， 结 果 返 回 了 已 经 被 挪动 的 文档 (如 图 
4-4 所 示 )。 





图 4-4: 游标 可 能 会 返回 那些 已 经 被 挪动 的 文档 
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应 对 这 个 问题 的 方法 就 是 对 查询 进行 快照 。 如 果 使 用 了 "$snapshot" 选项 ， 查 询 
就 是 针对 不 变 的 集合 视图 运行 的 。 所 有 返回 一 组 结果 的 查询 实际 上 都 进行 了 快照 。 
不 一 致 只 在 游标 等 待 结果 时 集合 内 容 被 改变 的 情况 下 发 生 。 


4.6 游标 内 幕 


看 待 游标 有 两 种 角度 : 客户 端的 游标 以 及 客 岂 内 游标 表示 的 数据 库 游 标 。 前 面 讨论 
的 都 是 客户 端的 游标 ， 接 下 来 简要 看 看 服务 器 端 发 生 了 什么 。 


在 服务 器 端 ， 游 标 消 耗 内 存 和 其 他 资源 。 游 标 遍 历尽 了 结果 以 后 ， 或 者 客户 端 发 来 
消息 要 求 终 止 ， 数 据 库 将 会 释放 这 些 资 源 。 释 放 的 资源 可 以 被 数据 库 换 作 他 用 ， 这 
是 非常 有 益 的 ， 所 以 要 尽量 保证 尽快 释放 游标 (在 合理 的 前 提 下 )。 


还 有 一 些 情况 导致 游标 终止 (随后 被 清理 )。 首 先 ， 当 游标 完成 匹配 结果 的 迭代 时 ， 
它 会 清除 自身 。 男 外 ， 当 游标 在 客户 端 已 经 不 在 作用 域内 了 ， 驱 动 会 向 服务 器 发 送 
专门 的 消息 ， 让 其 销毁 游标 。 最 后 ， 即 便 用 户 也 疫 有 和 迭代 完 所 有 结果 ， 并 且 游 标 也 
还 在 作用 域 中 ，10 分 钟 不 使 用 ， 数 据 库 游 标 也 会 目 动 销毁 。 


这 种 “超时 销毁 ”的 行为 是 我 们 希望 的 : 极 少 有 应 用 程序 希望 用 户 花 费 数 分 钟 坐 在 
那里 等 待 结果 。 然 而 ， 的 确 有 些 时 候 希 望 游标 持续 的 时 间 长 一 些 。 奋 是 如 此 的 话 ， 
多 数 驱 动 程序 都 实现 了 一 个 叫 immortal 的 函数 ， 或 者 类 似 的 机 制 ， 来 告知 数据 库 
不 要 让 游标 超时 。 如 果 关 闭 了 游标 的 超时 时 间 ， 则 一 定 要 在 迭代 完结 果 后 将 其 关闭 ， 
否则 它 会 一 直 在 数据 库 中 消耗 服务 器 资源 。 
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第 5 章 


索引 


索引 就 是 用 来 加 速 查询 的 。 数 据 库 索引 与 书籍 的 索引 类 似 : 有 了 索引 就 不 需要 翻 过 
整 本 书 ， 数 据 库 则 可 以 直接 在 索引 中 查找 ， 使 得 查找 速度 能 提高 几 个 数量 级 。 在 索 
引 中 找到 条 目 以 后 ， 就 可 以 直接 跳 转 到 目标 文档 的 位 置 。 


让 这 个 比喻 走 个 极端 ， 可 以 说 创建 数据 库 索 引 就 像 确定 如 何 组 织 书 的 索引 一 样 。 但 
你 的 优势 是 知道 今后 会 做 何 种 查询 ， 以 及 哪些 内 容 需 要 快速 查找 。 比 如 ， 所 有 的 查 
询 都 包括 "date" 键 ， 那 么 很 可 能 (至 少 ) 需要 建立 一 个 关于 "date" 的 索引 。 如 
果 要 查询 用 户 名 ， 则 不 必 宗 引 "usSer num" 键 ， 因 为 根本 不 会 对 其 进行 查询 。 


5.1 索引 简介 


要 和 泡 提 如 何 为 查询 配置 最 佳 索 引 会 有 些 难 度 ， 但 却 是 非常 值得 努力 去 做 。 有 时候 花 
费 数 分 钟 的 查询 ， 如 果 配 合适 当 的 索引 可 能 会 即刻 完成 。 


sd MongoDB 的 索引 几乎 与 传统 的 关系 型 数据 库 索 引 一 模 一 样 ， 所 以 如 果 已 
ky 经 掌握 了 那些 技巧 ， 则 可 以 跳 过 本 节 的 语法 说 明 。 后 面 会 有 些 索 引 的 基 
加 础 知识 ， 但 一 定 要 记 住 这 里 涉及 的 只 是 冰山 一 角 ， 绝 大 多 数 优化 MySQL/ 
Oracle/SQLite 索引 的 技巧 也 同样 适用 于 MongoDB 。 
现在 要 依照 革 个 键 进行 查找 : 
> db.people.find({"username" : "mark"})) 


当 查 询 中 仅 使 用 一 个 键 时 ， 可 以 对 该 键 建立 索引 ， 以 提高 查询 速度 。 本 例 中 ， 对 
"username" 建立 索 3|。 创 建 索 引 要 使 用 ensureIndex 方法 : 
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> db.people.ensureIndex({"username" : 1}) 
对 于 同一 个 集合 ， 同 样 的 索引 只 需要 创建 一 次 。 反 复 创 建 是 徒劳 的 。 


对 某 个 键 创建 的 索引 会 加 速 对 该 键 的 查询 。 然 而 ， 对 于 其 他 查询 可 能 没有 帮助 ， 即 便 是 查 
询 包含 了 被 索引 的 键 。 例 如 ， 下 面 的 查询 就 不 会 从 先前 建立 索引 中 获得 任何 的 性 能 提升 。 


> db.people.find{{"date" : datel}) .sort({"date" : 1, "username : 1}) 


服务 器 必须 “查找 整 本 书 ” 找 到 想 要 的 日 期 。 这 个 过 程 称 作 表 扫描 ， 就 是 在 没有 索 
引 的 书 中 找 内 容 ， 要 从 第 一 页 开始 ， 从 前 翻 到 后 。 通 常 来 说 ， 要 尽量 避免 让 服务 器 
做 表 扫 描 ， 因 为 当 集 合 很 大 时 会 非常 慢 。 


实践 证 明 ， 一 定 要 创建 查询 中 用 到 的 所 有 键 的 索引 。 例 如 ， 对 于 上 面 的 查询 ， 应 该 
建 并 日 期 和 用 户 名 的 索引 : 


> db.ensureIndex{({'"date" : 1, "username" : 1}) 


传递 给 ensureIndex 的 文档 其 形式 与 传递 给 sort 的 文档 形式 一 样 : 一 组 值 为 1 或 
者 -1 的 键 ， 表 示 索 引 创建 的 方向 。 若 索引 只 有 一 个 键 ， 则 方向 无 关 紧 要 。 单 键 索 引 
有 点 像 一 个 按照 字母 顺序 组 织 的 书籍 索引 : 无 论 从 A 到 Z， 还 是 从 Z 到 A， 显 然 都 
要 从 M 开始 查找 。 


若是 有 多 个 键 ， 就 得 考虑 索引 的 方向 问题 了。 例如 有 如 下 的 用 户 集 合 : 


{ » id" : ..., "usSername" ; "smith", "age" : 48, "user id" : 0 } 
{ 1 id” ; ..., "uSername" :."”smith", "age" : 30, !'user id"”.: 1 } 
{ 1 id"” ; ..., usSername" ; '*john", "age" : 36, ‘user id"” : 2 } 
{ ia" : ..., "username" : "john", "age" : 18, "user id" : 3 } 
{ " id" : ..., "username" : "joe'", "age" : 36, "user id" : 4 } 

{" id"” : ..., "usSername" : john", "age" : 7, "user id" : 5 } 

{ " id" : ..., "username’" : "simon’", "age" : 3, "user id" : 6 】 
{ 人 "idn : ..., "username" : "joe", "age’” : 27, "user id" : 7 } 

{™ id $ .op USernamen : "jacob"; "age” : 17, "user lian :8 | 
{ " id" : ..., "usSername" : "sally'", 'age" : 52, "user id" : 9 } 
{ ”iada : ..., "username" : "simon", "age" : 59, "user ia" : 10 } 


比如 以 {rusername" : 1，"age" : -1} 这 种 方式 创建 索引 。MongoDB 会 按 如 
下 方式 组 织 用 户 : 


{" id"” ; ..., "username" : "jacob", "age" : 17, ‘user id" : 8 } 
{ " id" : ..., "username" : "joe", ‘'age"” : 36, "user id"” : 4 } 

{ " id" : ..., "username" : "joe", "age" : 27, "user id" : 7 } 

{ " idn : ..., "username" : "john'", "age" : 36, ‘'user id" : 2 } 
{ " id" : ..., "username" : "john", "age" : 18, "user id" : 3 } 
{ "id" : ..., "username" : "john", "age" : 7, "user id" : 5 } 

{ * id" : ..., "username" : "sally", "age" : 52, "user id : 9 } 
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" dan : ..., "ugername" : "simon", "age" : 59, "user,i960 105]] 


{" id" : ..., "username" : "simon", "age" :; 3, "user jaw™™™E 
{" id" : ..., "usSername" : "smith", "age" : 48, "usér id" : 0 } 
{ "iid" :; ..., "username" : "gmith", "age" : 30, "user id" "a .,} 


用 户 名 严格 地 按照 字母 升序 排列 ， 同 名 的 组 按照 年 龄 降序 排列 。 这 对 { "username" 
: 1, "age" :-1} 这 样 的 排序 做 了 优化 ， 但 是 对 {"username" :1 "age” : 
1} 就 不 那么 有 效 了 。 要 是 想 对 其 优化 的 话 ， 则 和 需 建 并 {"username" : 1， "agen 
: 1} 的 索引 以 便 按 照 年 龄 升序 组 织 。 


对 用 户 名 和 年 龄 的 索引 同样 能 加 快 对 用 户 名 的 查询 。 一 般 来 说 ， 如 果 索 引 包含 N 
个 键 ， 则 对 于 前 几 个 键 的 查询 都 会 有 帮助 。 比 如 有 个 索引 {ra" : 1， bn" : 1， 
人 时 二 和 由 1 实际 上 是 有 了 { "an | 1 、 | sn 4， nn . 11、 
(var : 1，"b" : 1，wcw :1} 等 的 索引 。 但 是 使 用 {rb" : 1}、 {ra" : 1， 
ncn :1) 等 索引 的 查询 则 不 会 被 优化 ， 只 有 使 用 索引 前 部 的 查询 才能 使 用 该 索引 。 


MongoDB 的 查询 优化 器 会 重 排查 询 项 的 顺序 ， 以 便利 用 索引 :; 比如 查询 {"x" 
: "foo", nyn : rpar"} 的 了 时候， 已 经 有 了 {"y" 二 1 的 索 5|， 
MongoDB 会 自己 找到 并 利用 它 。 


创建 索引 的 缺点 就 是 每 次 插入 、 更 新 和 删除 时 都 会 产生 额外 的 开销 。 这 是 因为 数据 
库 不 但 需要 执行 这 些 操 作 ， 还 要 将 这 些 操作 在 集合 的 索引 中 标记 。 因 此 ， 要 尽 可 能 
少 创建 索引 。 每 个 集合 默认 的 最 大 索引 个 数 为 64 个 ， 能 够 应 付 绝 大 多 数 情况 了 。 


很 可 能 对 查询 速度 提升 不 大 。 仔 细 考 虑 到 底 要 做 什么 样 的 查询 ， 什 么 样 的 
索引 适合 这 样 的 查询 ， 通 过 explain 和 hint 工具 确保 服务 器 使 用 了 业已 
建立 的 索引 ， 这 两 个 工具 会 在 下 一 市 详细 介绍 。 


Js 一 定 不 要 索引 每 一 个 键 。 这 会 导致 插入 非常 慢 ， 还 会 占用 很 多 空间 ， 并 且 


有 些 时 候 ， 最 有 效 的 方法 居然 是 不 使 用 索引 。 一 般 说 来 ， 要 是 查询 要 返回 集合 中 一 
半 以 上 的 结果 ， 用 表 扫 描 会 比 几 乎 每 条 文档 都 查 索引 要 高 效 一 些 。 所 以 ， 查 询 是 否 
存在 某 个 键 ， 或 者 检查 某 个 布尔 类 型 的 值 为 真 还 是 为 假 ， 真 的 没有 用 索引 的 必要 。 


5.1.1 扩展 索引 


假设 我 们 有 个 集合 ,保存 了 用 户 的 状态 消息 。 现 在 想 要 查询 用 户 和 日 期 ， 取 出 某 一 
用 户 最 近 的 状态 。 以 我 们 目前 所 学 ， 我 们 会 像 下 面 这 样 创建 一 个 索引 : 


> db.status.ensureIndex({user : 1, date : -1}) 


这 会 使 对 用 户 和 日 期 的 查询 非常 快 ， 但 是 并 不 是 最 好 的 方式 。 
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再 想 想 书籍 的 索引 。 有 一 组 文档 按照 用 户 名 (升序) 排序， 尔后 按 着 日 期 (降序 ) 
排序 ， 所 以 会 是 这 种 情形 : 

User 123 on March 13, 2010 

User 123 on March 12, 2010 

User 123 on March 11, 2010 

User 123 on March 5, 2010 

User 123 on March 4, 2010 


User 124 on March 12, 2010 
User 124 on March 11, 2010 


这 所 数据 看 着 还 行 ， 但 是 应 用 会 有 数 百 万 的 用 户 ， 每 人 每 天 有 数 十 条 状态 更 新 。 若 
是 每 条 用 户 状态 的 索引 值 占用 类 似 一 页 纸 的 磁盘 空间 ， 那 么 对 于 每 次 “最 新 状态 ” 

ee 数据 库 都 会 将 不 同 的 页 载 入 内 存 。 硅 是 站 点 太 热 门 ， 内 存放 不 下 所 有 的 索 
， 就 会 非常 非常 慢 。 


要 是 改变 索引 的 顺序 ， 变 成 {date : -1，user : 1}， 则 数据 库 可 以 将 最 后 几 天 的 索 
引 保存 在 内 存 中 ， 可 以 有 效 减少 内 存 交 换 ， 这 样 查询 任何 用 户 的 最 新 状态 都 会 快 很 多 。 


所 以 ， 建 立 索 ?| 时 要 洲 虑 如 下 问题 。 


(1) 会 做 什么 样 的 查询 ? 其 中 哪些 键 需要 索引 ? 
(2) 每 个 键 的 索引 方向 是 怎样 的 ? 
(3) 如 何 应 对 扩展 ? 有 没有 种 不 同 的 键 的 排列 可 以 使 常用 数据 更 多 地 保留 在 内 存 中 ? 


要 是 能 回答 这 些 问 题 ， 说 明 你 已 经 做 好 了 索引 的 准备 了 。 


5.1.2 索引 内 髓 文档 中 的 键 


为 内 聊 文 档 的 键 建立 索引 和 为 普通 的 键 创建 索引 没有 什么 区 别 。 例 如 ， 要 想 按 日 期 搜索 博 
客 文章 的 评论 9 可 以 在 由 内 藤 的 1iCommentSn 文档 组 成 的 数组 中 对 "date" 键 创建 索引 : 


> db.blog.ensureIndex({'"comments.date" : 1}) 


对 内 奶 文 档 的 键 索 引 与 普通 键 索 引 并 无 差异 ， 两 者 也 可 以 联合 组 成 复合 索引 。 


5.1.3 为 排序 创建 索引 


随 着 集合 的 增长 ， 需 要 针对 查询 中 大 量 的 排序 做 索引 。 如 果 对 没有 索引 的 键 调用 
sort，MongoDB 需要 将 所 有 数据 提取 到 内 存 来 排序 。 因 此 ， 可 以 做 无 索引 排序 是 
有 个 上 限 的 ， 那 就 古 不 可 能 在 内 存 里 面 做 级别 数 据 的 排序 。 一 旦 集合 大 到 不 能 
内 存 中 排序 ，MongoDB 就 会 报错 。 
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按照 排序 来 索引 以 便 让 MongoDB 按照 顺序 提取 数据 ， 这 样 就 能 排序 大 规模 数据 ， 
而 不 必 担心 用 光 内 存 。 


5.1.4 索引 名 称 

集合 中 的 每 个 索引 都 有 一 个 字符 串 类 型 的 名 字 ， 来 唯一 标识 索引 ， 服 务 器 通过 这 个 
名 字 来 删除 或 者 操作 索引 。 默 认 情 况 下 ， 索 引 名 类 似 keynamel dirl keyname2_ 
dir2 ... keynameN dirN 这 种 形式 ， 其 中 keynamexX 代表 索引 的 键 ，dirx 代表 索 
引 的 方向 (1 或 者 -1) 。 要 是 索引 的 键 特别 多 ， 这 样 俞 名 联 略 显 轧 林 了 ， 不 过 还 好 可 
以 通过 ensureIndex 的 选项 来 指定 自 定义 的 名 字 : 


> db.foo.ensureIndex({'"a"™ : 1, "bb : 1, ct : 1，...，n2zn 1}, {name' 
: "alphabet"}) 


索引 名 有 字符 个 数 的 限制 ， 所 以 特别 复杂 的 索引 在 创建 时 一 定 要 使 用 自 定义 的 名 字 。 
可 以 用 getLastError 来 检查 索引 是 否 成 功 创建 了 或 者 未 成 功 创建 的 原因 。 


5.2 ”唯一 索引 


唯一 索引 可 以 确保 集合 的 每 一 个 文档 的 指定 键 都 有 唯一 值 。 例 如 ， 如 果 想 保证 文档 
的 "username" 键 都 有 不 一 样 的 值 ， 创 建 一 个 唯一 索引 就 好 了 : 


> db.people.ensureIndex({"username’" : 1}, {"unique" : true}) 
一 定 要 牢记 默认 情况 下 ，insert 并 不 检查 文档 是 否 播 入 过 了 。 所 以 ， 为 了 避免 播 
入 的 文档 中 包含 与 唯一 键 重复 的 值 ， 可 能 要 用 安全 插入 才能 满足 要 求 。 这 样 ， 在 插 
入 这 样 的 文档 时 会 看 到 存在 重复 键 错 误 的 提示 。 
可 能 我 们 最 熟悉 的 唯一 索引 就 是 对 " id" 的 索引 了 ， 这 个 索引 是 在 创建 普通 集合 时 
一 同 创建 的 。 这 个 索引 和 普通 唯一 索引 只 有 一 点 不 同 ， 束 是 不 能 删除 。 


立 了 唯一 索引 ， 但 插入 了 多 个 缺少 该 索引 键 的 文档 ， 则 由 于 文档 包含 nul1 


JS 如 果 没 有 对 应 的 键 ， 索 引 会 将 其 作为 nu11 存储 。 所 以 ， 如 果 对 某 个 键 建 
值 而 导致 插入 失败 。 


5.2.1 消除 重复 


当 为 已 有 的 集合 创建 索引 ， 可 能 有 些 值 已 经 有 重复 了 。 和 若是 真 的 发 生 这 种 情况 ， 那 
么 索引 的 创建 就 是 失败 。 有 些 时候 ， 可 能 希望 将 所 有 包含 重复 值 的 文档 都 删 掉 。 
dropDups 选项 就 可 以 保留 发 现 的 第 一 个 文档 ， 而 删除 接 下 来 的 有 重复 值 的 文档 : 
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> db.people.ensureIndex({"username" : 1}, {'"uniqyuen : Erue,” fdijopmids' 
: txGe) 


这 种 做 法 多 少 有 点 和 鲁莽， 如 果 数 据 很 重要 的 话 ， 还 是 写 个 脚本 做 个 预 处 理 比 较 稳 妥 。 


5.2.2 ”复合 唯一 索引 

创建 复合 唯一 索引 的 时 候 ， 单 个 键 的 值 可 以 相同 ， 只 要 所 有 键 的 值 组 合 起 来 不 同 就 好 。 
GirdFS 是 MongoDB 中 存储 大 文件 的 标准 方式 〈 详 见 第 7 章 )， 其 中 就 用 到 了 复合 
唯一 索引 。 存 储 文 件 内 容 的 集合 有 一 个 复合 唯一 索引 {files id : 1, n : 1)， 
看 起 来 就 像 ， 


{files id : ObjectId("4b23c3ca7525£f35f94bé60a2d"), n : 
{files id : ObjectId("4b23c3ca7525f35f94b60a2d"), n : 2} 
{files id : ObjectId("4b23c3ca7525f35f94b60a2d"), n 
{files id : ObjectIid("4b23c3ca7525f35f94b60a2d"), n 


注意 ， 所 有 "files id" 的 值 都 相同 ,但 是 "nr" 的 值 不 同 。 阁 是 试图 再 次 插入 
{files id : ObjectId("4b23c3ca7525f35f94b60a2d")，n : 1}， 则 数据 


库 会 提示 存在 重复 键 的 错误 。 


5.3 ”使 用 explain 和 hint 


explain 是 一 个 非常 有 用 的 工具 ， 会 帮助 你 获得 查询 方面 诸多 有 用 的 信息 。 只 要 对 
游标 调用 该 方法 ， 就 可 以 得 到 查询 细节 。explain 会 返回 一 个 文档 ， 而 不 是 游标 本 
身 ， 这 是 与 多 数 游 标 方法 不 同 之 处 。 


> db.too.fina() .explain() 
explain 会 返回 查询 使 用 的 索引 情况 (如 果 有 的 话 )， 耗 时 及 扫描 文档 数 的 统计 信息 。 


例如 ， 索 引 {"username" : 1} 对 单个 键 的 查询 非 第 有 帮助 ， 但 是 多 数 查询 要 复杂 
得 多 。 比 如 ， 要 做 如 下 查询 并 排序 : 


> db.people.find({fnager : 18}) .scort({fnusernamen : 1}) 


这 时 就 搞 不 太 准 数据 库 到 底 用 没 用 已 经 创建 的 索引 ， 或 者 到 底 效 率 如 何 。 使 用 
explain 就 会 得 到 当前 查询 所 使 用 的 索引 ， 消 耗 了 多 少时 间 ， 以 及 数据 库 需 要 扫描 
多 少 文档 才能 得 到 结 采 。 


对 于 一 个 只 有 64 个 文档 ， 没 有 索引 ("_ ia" 索引 除外 ) 的 数据 库 ， 做 一 次 最 简单 
的 查询 ({ }))， explain 的 输出 类 似 下 面 这 样 : 
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> db.people.find{() .explain ( ) 


HCUIrSOr” : "BasicCursor', 
“indexBounds"” : [ ]， 
nscanned" : 64, 
nscannedObjects" : 64, 
nn : 64 ， 
nmillis" : 0， 
rallPlans" : [ 
cuUrSor™ : "BasicCursor", 
rindexBounds"* : [ ] 


} 


结果 中 的 要 点 如 下 。 


cursor' : "BasicCurSoOLn 


这 说 明 查 询 没 有 使 用 索引 (并 不 意外 ， 因 为 没有 查询 条 件 )。 一 会 儿 会 看 到 有 索引 的 
情形 。 

"nscanned" : 64 

这 个 数字 代表 数据 库 查 找 了 多 少 个 文档 。 大 家 都 想 让 这 个 数字 尽 可 能 地 接近 返 
回 结 果 的 数量 。 

"nn : 64 

这 个 代表 返回 文档 的 数量 。 这 个 例子 非常 完美 ， 因 为 扫描 的 文档 数量 和 返回 的 
文档 数量 完全 一 致 。 当 然 ， 这 是 由 于 返回 了 整个 集合 ， 否 则 的 话 很 难 做 到 。 


millis" : 0 


这 个 毫秒 数 表示 数据 库 执行 查 询 的 时 间 。0 是 非常 理想 的 成 绩 。 


假设 现在 有 一 个 基于 "age'" 键 的 索引 ， 现 在 要 查找 20 多 岁 的 用 户 。 对 这 个 查询 使 
用 explain 会 是 这 样 的 : 


> db.c.find{({age : {S$gt : 20, $1lt : 30}}) .explain() 


{ 


"Cursor” : "BtreeCursor age 1", 
"indexBounds'’ : [人 
[ 
{ 
nage" : 20 
}, 
{ 
nage" : 30 
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] ， 


"nscanned" : 14， 

"mscannedobjects" : 12， 

"nn. ss 12: 

"millis" : 1, 

"allPlans" : |[ 
cursor” : "BtreeCursor age 1", 
"nindexBounds" : [ 


[ 


Hage" : 20 


rage" : 30 


} 
因为 有 了 索引 ， 和 上 个 例子 有 些 不 一 样 ， 所 以 explain 的 几 个 输出 键 值 发生 了 改变 。 


"Cursor'" : "BtreeCursor age 1" 


查询 不 像 先前 一 样 使 用 了 Basiccursor。 索 引 存储 在 B 树 的 结构 中 ， 所 以 当 
使 用 索引 查询 ， 就 会 使 用 叫做 Btreecursor 类 型 的 游标 。 

这 个 值 也 标识 了 使 用 的 索引 名 age 1。 通 过 这 个 名 字 ， 可 以 查询 system. 
indexes 集合 来 获取 关于 这 个 索引 更 进一步 的 信息 (例如 ， 是 否 是 唯一 索引 ， 都 
包含 哪些 键 ) : 


> db.system.indexes.find({"ns" : "test.c", ‘'name" : "age 1"}) 


{ 


1 id" : ObjectId("4c0d211478b4eaaf7fb28565"), 


ns : stest.c", 
1KeYn 。 { 
nage' ; 1 
ja 
"name" : "age_1" 
} 
nallPlans” : [ ... ] 


这 个 键 列举 了 所 有 MongoDB 考虑 的 查询 方案 。 当 然 这 里 的 选择 还 是 比较 显然 
的 ， 因 为 已 经 有 了 "age" 索引 ， 恰 恰 也 是 要 查找 rage"。 要 是 索引 相互 重 笃 ， 
查询 也 很 复杂 ，"allPlan" 就 会 包含 所 有 可 能 用 到 的 尝试 。 


看 一 个 稍微 复杂 一 点 的 例子 。 假 设 已 经 有 {"username" : i，"age"” : 1} 和 
{"agen : 1, username" : 1) 的 索引 了 ， 现在 要 查询 用 户 名 和 年 龄 ， 会 怎么 样 
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呢 ? 要 看 具体 的 查询 了 : 


> db.c.find({fage : {Sgt : 10}, username : "sally"}) .explain!() 


| 


"cursor" : "BtreeCursor username 1 age _ 1", 


"indexBounds" : [ 
[ 
| 
"username" : "sally", 
Hage" : 10 
部 
{ 
"username" : "Bally"', 
lager : 1.7976931348623157e+308 
} 
] 


二 
nacanned®" :; 13, 
"nscannedObjects" : 13, 


"ee 
"millis" : §., 
"nallPlans" : [ 
{ 
"CUrSor" : "BtreeCursor username 1 age 1", 
"indexBounds" : [ 
[ 
人 
"username" :; "sally", 
"age”" :; 10 
}， 
"username" : "sally", 
Tage" 
1.7976931348623157e+308 
} 
] 
] 
} 
] ， 
"oldPlan" : { 
"oursor" :; "BtreeCcursor username 1 age 1", 
"indexBounds" : I[ 
L 
{ 
"username" : "sally", 
"age" ; 10 
}， 
人 
"username" ; "sally", 
"age™" ; 1.7976931348623157e+308 
} 
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这 里 的 查询 要 求 精 确 匹 配 用 户 名 和 年 龄 范围 ， 所 以 数据 库 使 用 了 { usernamen 
1， "age" : 1} 索引 ， 而 自己 调换 了 查询 项 的 顺序 。 另 一 方面 ， 如 果 查 找 严 格 匹 
配 的 年 龄 和 名 字 范 围 ，MongoDB 就 会 使 用 别 的 索引 : 


> Gb.c.find({'"age" : 14, "username" : /.*/})) .explain() 
rcursor” : "BtreeCursor age 1 username 1 multi", 
"indexBounds" : [ 
[ 
"age" : 14, 
ruUSername” ; ?1 
"age ; 14, 
nusername" : { 


} 


agenu : 14, 
USerznamen : /.*/ 


"nage" : 14， 
rusername” : /.*/ 


] ， 

"nscanned" ; 2， 

"nscannedObjects" : 2, 

mr : 2 ， 

"millis" : 2, 

"allPlans" : [ 
"Cursor’" : "BtreeCursor age 1 username 1 multi*, 
"jndexBounds" : [ 


[ 
{ 


"age"”" : 14, 

HuSgsername™ : 1 
js 

"agenr : 14, 

rusername" : { 


} 
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"age’” : 14, 


rusername” : /.*/ 
3 

"age”" : 14, 

rusername™ : /.*/ 


] 

} 
如 末 发 现 MongoDB 用 了 非 预 期 的 索引 ， 可 以 用 hint 强制 使 用 某 个 索引 。 例 如 ， 项 
望 MongoDB 在 上 一 个 例子 中 使 用 {"username"” : 1，"agen : 1} 索引 ， 则 需要 : 

> db.c.find({!'age" : 14, "username" : /.*/}) .hint({"username" : 1, 

"agent : 1}) 

多 数 情况 下 这 种 指定 都 没什么 必要 。MongoDB 的 查询 优化 器 非常 智能 ， 会 替 你 
择 该 用 哪个 索引 。 初 次 做 某 个 查询 时 ， 查 询 优 化 器 会 同时 尝试 各 种 查询 方案 。 最 先 
完成 的 被 确定 使 用 ， 其 他 的 则 终止 掉 。 查 询 方案 被 记录 下 来 ， 以 备 日 后 应 对 相同 键 
的 查询 。 查 询 优 化 器 定期 重 试 其 他 方案 ， 以 防 因为 添加 新 的 数据 后 ， 之 前 的 方案 不 
再 是 最 优 的 了 。 只 要 关心 给 查询 优化 左 建 立 可 以 选择 的 索引 | 承 可 以 了 。 


5.4 索引 管理 


索引 的 元 信息 存储 在 每 个 数据 库 的 system. indexes 集合 中 。 这 是 一 个 保留 集合 ， 
不 能 对 其 插入 或 者 删除 文档 。 操 作 只 能 通过 ensureIndex 或 者 dropIndexes 进行 。 


system.indexes 集合 包含 每 个 索引 的 详细 信息 ， 同 时 system.namespaces 集合 也 
含有 索引 的 名 字 。 如 果 查 看 这 个 集合 ， 会 发 现 每 个 集合 至 少 有 两 个 文档 与 之 对 应 ， 
一 个 对 应 集合 本 身 ， 一 个 对 应 集合 包含 的 索引 。 对 于 只 有 标准 的 " ia" 索引 的 集 
合 ，system.namespaces 应 该 类 似 这 样 : 


{ name' : itest.foo" } 
{ "name" : "test.foo.$ id "} 

如 果 存 在 关于 名 字 和 年 龄 的 复合 索引 ，system.namespaces 则 会 增加 一 条 文档 ， 
{ "name’ : "test.foo.$name 1 age 1" } 


第 2 章 讲 到 集合 名 的 长 度 不 得 超过 121 字 节 。 这 个 有 点 诡异 的 数字 是 因为 iq" 索 
引 的 命名 空间 需要 额外 的 6 字 节 (".$ id ")， 于 是 这 个 索引 名 的 长 度 就 是 略 显 有 
意义 的 127 字 节 了 。 


译注 1: 遍历 数据 库 中 的 所 有 集合 时 要 格外 小 心 ， 因 为 通常 我 们 并 不 想 对 这 个 集合 执行 操作 。 
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一 定 要 记 住 集合 名 和 索引 名 加 起 来 不 能 超过 127 字 节 。 若 了 :到 了 命 各 各 辣 交 疾 度 
限制 或 是 有 很 长 的 索引 名 ， 则 需要 自 定义 索引 名 ， 以 避免 过 长 。 一 最 来 说 让 数据 库 、 
集合 、 键 的 名 字 长 度 适 中 要 比 改名 来 得 容易 一 些 。 


修改 索引 
随 着 你 的 应 用 和 你 一 起 慢 慢 变 老 ， 你 会 发 现 数据 或 者 查询 已 经 发 生 了 改变 ， 原 来 的 
索引 也 不 那么 好 用 了 。 不 过 使 用 ensureIndex 随时 可 以 同 现 有 集合 添加 新 的 索引 ; 


> db.people.ensureIndex({"username" : 1}, {"background" : true}) 


建立 索引 既 耗 时 也 费力 ， 还 需要 衫 耗 很 多 资源 。 使 用 {"background" : true} 选 
项 可 以 使 这 个 过 程 在 后 台 完 成 ， 同 时 正 稍 处 理 请 求 。 要 是 不 包括 background 这 个 
选项 ， 数 据 库 会 阻塞 建立 索引 期 间 的 所 有 请 求 。 


阻塞 的 做 法 会 让 索引 建立 得 更 快 ， 同 时 也 意味 着 应 用 在 此 期 间 不 能 应 答 。 即 便 在 后 
台 进 行 也 会 对 正常 操作 有 些 影响 ， 所 以 最 好 选 在 无 关 紧 要 的 时 刻 。 后 台 创 建 索 引 也 
会 增加 些 负 载 ， 好 在 不 会 让 服务 絮 信 机。 


为 已 有 文档 创建 索引 比 先 创建 索引 再 插 和 人 所 有 文档 要 稍 快 一 氮 。 当 然 ， 要 是 集合 的 
数据 从 无 到 有 ， 事 先 创建 一 个 索引 也 未 莹 不 可 。 : 


要 是 索引 没 用 了 ， 便 可 以 用 dropIndexes 加 上 罕 引 名 将 其 删除 。 通 前 ， 要 查 一 下 
system.indexes 集合 来 找 出 索引 名 ， 因 为 即便 是 目 动 生 成 的 名 字 也 会 因为 驱动 程 
序 不 同 而 不 同 。 


> db.runCommand({"dropIndexes" : "foo", "index" : "alphabet"}) 
要 删除 所 有 索引 ， 可 以 将 index 的 值 赋 为 *: 
> db,runcommand ({"dropIndexes" : "foo'", "index" : "*")}) 


另外 一 种 删除 索引 的 方式 就 是 删除 集合 。 这 也 会 删除 ia 索引 (还 有 集合 的 所 有 文档 )。 
删除 集合 的 所 有 文档 (用 remove 的 方式 ) 并 不 影响 索引 ， 当 有 新 文档 插 人 时 还 会 再 生 的 。 
5.5 ”地理 空间 索引 


还 有 一 种 查询 变 得 越 来 越 流行 (尤其 是 随 着 移动 设备 的 出 现 ) : 找到 离 当 前 位 置 最 
近 的 N 个 场所 。MongoDB 为 坐标 平面 查询 提供 了 专门 的 索引 ， 称 作 地 理 空 间 索 引 。 


假设 要 找到 给 定 经 纬度 坐标 周围 最 近 的 咖啡 馆 ， 就 需要 创建 一 个 专门 的 索引 来 提高 
这 种 查询 的 效率 ， 这 是 因为 这 种 查询 需要 搜索 两 个 维度 。 地 理 空间 索引 同样 可 以 由 
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ensureIndex 来 创建 ， 只 不 过 参数 不 是 1 或 者 -1， 而 是 "2dan: 
> db.map.ensureIndex({"gps" : "2d"}) 


"gps" 键 的 值 必须 是 某 种 形式 的 一 对 值 : 一 个 包含 两 个 元 素 的 数组 或 是 包含 两 个 键 
的 内 舱 文 档 。 下 面 这些 都 是 有 效 的 : 


{ "gps [ 0, 100 ] } 
{ "gps" : { "x : -30, "y" : 30 } } 
{ "gps" : { "latitude"” : -180, "longitude" : 180 } } 


至 于 键 名 可 以 随意 ,例如 {"gps"” : {"foo” : 0，"bar"” : 1}} 也 是 可 以 的 。 


默认 情况 下 ， 地 理 空间 索引 假设 值 的 范围 是 -180~180 (对 经 纬度 来 说 很 方便 )。 要 
是 想 用 其 他 值 ， 可 以 通过 ensureIndex 的 选项 来 指定 最 大 最 小 值 : 


> db.star.trek.ensureIndex{({"light-years" : "2d"}, {"min" : -1000, 
"max : 1000}) 


这 样 就 创建 了 一 个 2000 光 年 见方 的 空间 索引 。 

地 理 空间 查询 以 两 种 方式 进行 , 即 普通 查询 (用 fina) 或 者 使 用 数据 库 命令 。fina 的 

方式 与 一 般 的 查询 差别 不 大 ， 只 不 过 用 了 "$near"。 需 要 两 个 目标 值 的 数组 作为 参数 : 
> ab.map .findt{fagpen : {Snear" : [40, -73] }}) 

这 会 按照 离 点 (40，-73) 由 近 及 远 的 方式 将 map 集合 的 所 有 文档 都 返回 。 在 没有 


指定 1imit 的 值 时 ， 上 默认 是 100 个 文档 。 要 是 不 需要 这 么 多 结案 ， 就 应 该 设置 一 个 
少 点 的 值 以 节约 资源 。 例 如 ， 下 面 的 例子 将 返回 离 《40，-73) 最 近 的 10 个 文档 。 


> db.map.find({"gps" : {$near” : [40, -73] }}) .limit(10) 
也 可 以 用 geoNear 来 完成 相同 的 操作 : 
> db.runCommand ({geoNear : "map", near : [40, -73], num : 10}); 


geoNear 还 会 返回 每 个 文档 到 查询 点 的 距离 。 这 个 距离 是 以 你 插入 的 数据 为 单位 
的 , 如果 按 照 经 纬度 的 角度 插入 , 则 距离 就 是 经 纬度 。fina 与 "$near" 的 组 合 不 会 
给 出 距离 ， 但 若是 结果 大 于 4 MB ， 这 是 唯一 的 选择 。 


MongoDB 不 但 能 找到 靠近 一 个 点 的 文档 ， 还 能 找到 指定 形状 内 的 文档 。 做 法 就 是 
将 原来 的 "$near" 换 成 "swithnin"。"$within" 获取 数量 不 断 增 加 的 形状 作为 参 
数 。 若 查看 地 理 空间 索引 的 联机 帮助 文档 (http://www.mongodb.org/display/DOCS/ 
Geospatial+ Indexing)， 可 以 找到 最 新 的 形状 列表 。 扎 写本 书 时 ， 有 两 个 选项 : 你 可 
以 查询 矩形 和 圆 形 内 的 所 有 点 。 


Wwww.LiNnuxidc.com 


对 于 和 矩形， 使 用 "$box" 选项 : 

> db.map.find({"gps" : {"$within" : {nSbox" : [[10, 20], [15, 30]]}}}) 
"$box" 参数 是 两 个 元 素 的 数组 ， 第 一 个 元 素 指定 了 左下 角 的 坐标 ， 第 二 个 指定 右 
上 角 的 坐标 。 
同样 ， 也 可 以 用 "$center" 来 找到 圆 形 内 部 的 所 有 点 ， 只 不 过 参数 变 成 了 圆心 和 
半径 : 


> db.map.find{{"gps" : {"Swithinr : {"$center" : [[12, 25], 5] }}}) 


5.5.1 复合 地 理 空间 索引 


应 用 经 和 常 要 找 的 东西 往往 不 只 是 一 个 地 点 。 例 如 ， 用 户 要 找 出 周围 所 有 的 咖啡 店 或 
者 披 陕 店 。 将 地 理 空 间 索 引 与 普通 索引 组 合 起 来 就 可 以 满足 这 种 需求 。 例 如 ， 要 查 
询 "location" 和 "desc"， 就 可 以 这 样 创建 索引 : 


> db.ensureIndex({"location" : "2d", ‘desc* : 1}) 


然后 就 能 很 快 找到 最 近 的 咖啡 馆 了 : 


> db.map.find({"location" : {rSnearn ; [~70, 30]}, "desc" : 
coffeeshop"}) .1imit{(1) 
{ 

"_id* : ObjectId("4c0d1348928a81l5a720a0000"),， 

name’s : Mud", 

HJocation'" : [x, y], 

ndesc" : ["coffee", "coffeeshop", "muffins’'*, espresso"] 


} 
注意 ， 创 建 一 个 关键 词 数组 对 于 用 户 自 定义 查找 很 有 帮助 。 


5.5.2 地球 不 是 二 维 平面 

MongoDB 的 地 理 空 间 索 引 假 设 索 引 内 容 是 在 一 个 平面 上 的 。 这 就 意味 着 对 于 球体 ， 
比如 地 球 ， 它 并 不 是 十 分 精确 ， 尤 其 是 在 极地 区 域 。 有 具体 来 说 ， 两 条 经 线 之 间 纬 线 
的 长 度 在 赤道 和 在 育 空地 区 是 大 不 一 样 的 ， 后 者 要 短 得 多 。 可 以 用 不 同 的 投影 
段 将 地 球 映射 到 二 维 平面 ， 当 然 它 们 的 精度 和 相应 的 复杂 度 各 不 相同 。 


译注 1: 加 拿 大 最 西部 的 联邦 领地 。 
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D> 项 \ 


MongoDB 除了 基本 的 查询 功能 ， 还 提供 了 很 多 强大 的 聚合 工具 ， 其 中 简单 的 可 计 


算 集 合 中 的 文档 个 数 ， 复 杂 的 可 利用 MapReduce 做 复杂 数据 分 析 。 


6.1 count 
count 是 最 简单 的 聚合 工具 ， 返 回 集合 中 的 文档 数量 , 


> db.foo.countt() 

0 

> db.foo.insert({"x" : 1}) 
> db.foo.count'{) 

1 


不 论 集 合 有 多 大 ， 都 会 很 快 返回 总 的 文档 数量 。 
也 可 以 传递 查询 ，Mongo 则 会 计算 查询 结果 的 数量 : 


> db.foo.insert({"x" : 2}) 
> db.foo.count{) 

也 

> Gb.foo.count ({"x" : 1}) 
1 


对 分 页 来 说 有 个 总 数 非常 必要 :“ 共 439 个 ， 目 前 显示 0-10。 然而 增加 查询 条 件 会 


使 得 count 变 慢 。 


6.2 distinct 


distinct 用 来 找 出 给 定 键 的 所 有 不 同 的 值 。 使 用 时 必须 指定 集合 和 和 键 。 
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> db.runCommand ({"distinct" : "people", "key’” : "age"}) 
例如 ， 假 没有 如 下 文档 : 

{"'name" : "Ada", "age" : 20} 

{"name" : "Fred", "age" : 35} 

{ "namen : "Susan", "age" : 60} 

{"name"” : "Andy", "age"” : 35} 
如 有 果 对 "age" 键 使 用 aistinct， 会 获得 所 有 不 同 的 年 龄 。 

> db.runCommand ({"distinct" : "people", "key" : !'age"}) 

{"values" : [20, 35, 60], "ok" : 1} 


这 里 还 有 一 个 常见 问题 ， 有 没有 种 方法 获得 集 里 面 所 有 不 同 的 键 呢 ?起码 没有 内 置 
的 ， 不 过 可 以 用 MapReduce 目 己 写 一 个 (后面 会 讲 到 )。 


6.3 group 


group 做 的 诊 合 稍 复杂 一 些 。 先 选 定 分 组 所 依据 的 键 ， 而 后 MongoDB 就 会 将 集合 依据 
选 定 键 值 的 不 同 分 成 若干 组 。 然 后 可 以 通过 聚合 每 一 组 内 的 文档 ， 产 生 一 个 结果 文档 。 


se 仿 


Ne 
、] 
4 
1 
bb 


假设 现在 有 个 站 点 要 跟踪 股票 价格 。 从 上 午 10 点 到 下 午 4 点 每 隔 几 分 钟 就 更 新 一 下 
某 只 股票 的 价格 ， 并 保存 在 MongoDB 中 。 现 在 报表 程序 要 获得 近 30 天 的 收盘 价 。 
用 group 就 可 以 很 容易 地 办 到 。 


股价 的 集合 中 包含 数 以 千 计 的 如 下 形式 的 文档 : 


如 果 你 熟悉 SQL， 那 么 这 个 group 和 SQL 中 的 GROUP BY 差不多 。 





{ndayn : "2010/10/03","time" : "10/3/2010 03:57:01 GMT-400", "price" : 4.23} 
{day” : "2010/10/04","time" : "10/4/2010 11:28:39 GMT-400","price" : 4.27} 
{"day”" : "2010/10/03","time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10] 
{"day" : "2010/10/06","time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 
{"day" : "2010/10/04","time" : "+10/4/2010 08:34:50 GMT-400", "price" : 4.01)} 
记 着 由 于 精度 的 问题 ， 绝 不 要 将 金额 以 浮 点 数 的 方式 存储 ， 这 里 这 么 做 只 
是 为 了 简化 例子 。 
想 获得 的 结果 就 是 每 天 最 后 的 价格 列表 ， 就 像 这 样 : 
[ 
{"time" : “10/3/2010 05:00:23 GMT-400", "price" ; 4.10}, 
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{"time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27}, 
{"time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 
] 


先 把 集合 按照 天 分 组 ， 然 后 在 每 一 组 里 取 包 含 最 新 时 间 惟 的 文档 ， 将 其 放置 到 结 采 
中 就 完成 了 。 整 个 过 程 就 像 这 样 ， 


> db.runCommand ({"group”" : { 
。 ns : "gtocks’, 
"key" : "day”, 
ninitial" : {"time" : 0}, 
. "S$reduce" : function{(doc, SS { 


if (doc.time > prev.time) f 
prev.price = doc.price; 
prev.time = doc.time; 


网 } 
. }}}) 
分 解 开 来 看 看 。 
"ns™ : "stocks" 
指定 要 进行 分 组 的 集合 。 
"key" : "day" 
指定 文档 分 组 依据 的 键 。 这 里 就 是 "day" 键 。 所 有 "day" 值 相同 的 文档 被 划分 到 
一 组 。 
“jnitial" : {time" : 0} 
每 一 组 reduce 函数 调用 的 初始 上 时间， 会 作为 初始 文档 传递 给 后 续 过 程 。 每 一 
组 的 所 有 成 员 都 会 使 用 这 个 系 加 器 ， 所 以 改变 会 保留 住 。 
Sreduce" : function{doc, prev) { ... } 
每 个 文档 都 对 应 一 次 这 个 调用 。 系 统 会 传递 两 个 参数 ， 当 前 文档 和 累加 器 文档 
(本 组 当前 的 结果 )。 本 例 中 ， 想 让 reduce 函数 比较 当前 文档 的 时 间 和 累加 器 
的 时 间 。 如 果 当 前 文档 的 时 间 更 近 ， 则 将 累加 器 的 月 期 和 价格 替换 成 当前 文档 


的 值 。 别 忘 了 ， 每 一 组 都 有 一 个 独立 的 辕 加 锋 ， 所 以 不 必 担 心 不 同 的 日 期 使 用 
同一 个 累加 器 。 


在 问题 一 开始 的 描述 中 ， 就 提 到 只 要 最 近 30 天 的 股价 。 然 而 ， 这 里 近代 了 整个 集合 。 
这 就 是 为 什么 要 添加 "condition"， 因 为 这 样 就 可 以 只 处 理 满足 条 件 的 文档 了 。 


> db.runCcommand{{"'group" : { 
. "ns" : "stocks", 
。 HH key 于 . LL day HH 
.. "initial" : {time"” : 0}, 
. "Sreduce" : function{(doc, prev) { 
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if (doc.time > prev.time) |{ 
Prev .price = doc.price; 
prev.time = doc.time; 


. "condition" : {"day" : {"$gt" : "2010709/30 站 


i 

Pn . 
有 些 参考 资料 提 及 "conda" 键 或 者 "ga" 键 ， 其 实 和 "condition' 键 是 完 
上 4 、 全 一 样 的 (就 是 看 上 去 短 点 )。 


最 后 就 会 返回 由 30 个 文档 组 成 的 数组 ， 每 个 组 一 个 文档 。 每 组 还 有 分 组 依据 的 键 
(这 里 就 是 "day" : string) 以 及 这 组 最 终 的 prev 值 。 如 果 有 的 文档 没有 依据 
的 键 ， 就 都 会 被 分 到 一 组 ， 相 应 的 部 分 就 会 使 用 "day : null" 这 样 的 形式 。 在 
"condition" 中 可 入 "day" : {"S$Sexists" : true} 就 可 以 去 掉 这 组 。group 
命令 还 会 返回 使 用 的 文档 总 数 和 "key" 有 多 少 个 不 同 的 值 ; 


> db.runcommand({"group" : {...}}) 
| 
"retval” : 
[ 
人 
naayn : "2010/10/04", 
"time™ : "Mon Oct 04 2010 11:28:39 GMT-0400 (EST)}" 
"price™ ; 4.27 
}， 
Toount" ; 734, 
"kevyea"” : 30, 
El 和 让 E 


} 
这 里 每 组 的 "price" 都 是 显 式 设置 的 ，"time" 先 由 初始 化 器 设置 ， 然 后 也 是 主动 
更 新 。"day" 是 默认 被 加 进去 的 ， 因 为 分 组 依据 的 键 默 认 被 加 入 到 每 个 "retval" 
内 骨 文 档 中 。 要 是 不 想 返 回 这 个 键 ， 可 以 用 完成 器 把 替 加 絮 文 档 变 成 任意 形态 ， 其 
至 变换 成 非 文 档 (例如 数字 或 字符 串 )。 


6.3.1 使 用 完成 器 


完成 器 (finalizer) 用 以 精简 从 数据 库 传 到 用 户 的 数据 ， 这 个 步骤 非常 重要 ， 因 为 
group 命令 的 输出 一 定 要 能 放 在 单个 数据 库 啊 应 中 。 为 进一步 说 明 ， 这 里 举 个 博客 
的 例子 ， 其 中 每 篇 文章 都 有 多 个 标签 (tag)。 现 在 要 找 出 每 天 最 热点 的 标签 。 可 以 
(再 一 次 ) 按 天 分 组 ， 为 每 一 个 标签 计数 。 就 像 下 面 这 样 ; 


> db.posts .group (1{ 
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nkey" : {"tags" : true}, 
. "initial" : {"tags” : {}}, 
.. "S$reduce'*s : functionl{doc, prev) { 
for {i in doc.tags) f{ 
if (doc.tags [i] in prev.tags) { 
prev.tags [doc.tags [i]]++; 
} else { 
prev.tags [doc.tags [i]] = 1; 
} 


} 
}}) 


结果 会 是 这 样 : 


[ 
{"aay" : "2010/01/12", "tags" : (nosqln : 4, "winter" : 10, "sledding" :2}}, 
{"day™ : ”2010/01/13", "tags" : {soda" : 5, "php* : 2}}, 
{"day" : "2010/01/14", "tags" : {python" : 6, "winter" : 4, "nosgql": 15}} 

] 


接着 可 以 在 客户 端 找 出 "tags" 文档 中 值 最 大 的 标签 。 然 而 ， 向 客户 端 发 送 每 天 所 有 
的 标 符 文档 需要 许多 额外 的 开销 ; 每 天 所 有 的 键 / 值 对 都 传送 ， 而 我 们 仅仅 需要 单个 
字符 串 。 这 也 就 是 group 有 一 个 "finalize" 键 的 原因 。"finalize" 附带 一 个 函 
数 ， 在 每 组 结果 传递 到 客户 端 之 前 被 调用 一 次 。 可 以 用 其 修剪 结果 中 的 “ 残 枝 败 叶 ”: 


> db.runCommand ({"group"” : f 
"ns"” : "posts", 
"keyn : {"tags" : true}, 
ninitial" : {"tags"” : {}}, 
"S$reduce” ; function(doc, prev) { 
for (i in doc.tags) { 
if {doc.tags[i] in prev.tags) { 
prev.tags [doc.tags [i]]++; 
} else { 
prev.tags [doc.tags [i]] = 1; 


} 
}， 
"finalize” : function{(prev) { 
Var mostPopular = 0;} 


for {i in prev.tags) { 
if {prev.tags[i] > mostPopular) { 
prev.tag = i; 
mostPopular = prev.tags!i]; 
} 
} 
Se delete prev.tags 
see 
现在 好 了 ， 仅 返回 希望 的 结果 。 服 务 器 返回 : 


[ 
{"dayn : "2010/01/12", "tag" : "winter"}, 
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{"'day" : "2010/01/13*, "tag".: "soda"}, 
{"day" : "2010/01/14", "tag" : "nosql"} 
] 


finalize 能 修改 传递 的 参数 也 能 返回 新 值 。 


6.3.2 ”将 函数 做 为 键 使 用 


有 些 时 候 分 组 所 依据 的 条 件 非常 复杂 ， 不 仅 是 一 个 键 。 比 如 要 使 用 group 计算 每 个 
类 别 有 多 少 篇 博客 文章 〈 每 篇 文章 只 属于 一 个 类 别 )。 由 于 有 很 多 作者 ， 给 文章 分 类 
时 可 能 不 规律 地 用 了 大 小 写 。 所 以 ， 如 果 要 是 按 类 别名 来 分 组 ， 最 后 “MongoDB” 
和 “mongodb ”就 是 两 个 完全 不 同 的 组 。 为 了 消除 这 种 大 小 写 的 影响 ， 就 要 定义 一 
个 函数 来 确定 文档 分 组 所 依据 的 键 。 


定义 分 组 函数 就 要 用 到 $keyf 键 (注意 不 是 "key")。 就 像 这 样 : 


> db.posts.group{{"ns" : "posts", 
. "Skeyf" : function(x) { return x.category.toLowerCase(); }, 
. "initializer"” : ... }) 


有 了 "$keyf" 就 能 依据 各 种 复杂 的 条 件 进 行 分 组 了 。 


6.4 MapReduce 


MapReduce 是 察 合 工具 中 的 明星 。count、qistinct、group 能 做 的 上 述 事 情 
MapReduce 都 能 做 。 它 是 一 个 可 以 轻松 并 行 化 到 多 个 服务 器 的 罕 合 方法 。 它 会 拆 分 
问题 ， 再 将 各 个 部 分 发 送 到 不 同 的 机 器 上 ， 让 每 台 机 器 都 完成 一 部 分 。 当 所 有 机 器 
都 完成 的 时 候 ， 再 把 结果 汇集 起 来 形成 最 终 完整 的 结果 。 


MapReduce 需要 几 个 步骤 。 最 开始 是 映射 (map)， 将 操作 映射 到 集合 中 的 每 个 文 
档 。 这 个 操作 要 么 “无 作为 ， 要 么 “产生 一 些 键 和 XX 个 值 " 。 然 后 就 是 中 间 环 市 ， 
称 作 洗 牌 (shuffle)， 按 照 键 分 组 ， 并 将 产生 的 键 值 组 成 列表 放 到 对 应 的 键 中 。 化 简 
(reduce) 则 把 列表 中 的 值 化 简 成 一 个 单 值 。 这 个 值 被 返回 ， 然 后 接着 进行 洗 牌 ， 直 
到 每 个 键 的 列表 只 有 一 个 值 为 止 ， 这 个 值 也 就 是 最 后 结果 。 


使 用 MapReduce 的 代价 就 是 速度 : group 不 是 很 快 ，MapReduce 更 慢 ， 绝 不 要 用 
在 “实时 ”环境 中 。 要 作为 后 台 任 务 来 运行 MapReduce， 将 创建 一 个 保存 结果 的 集 
合 ， 可 以 对 这 个 集合 进行 实时 查询 。 


下 面 会 多 举 儿 个 MapReduce 的 例子 ， 这 个 工具 非常 强大 ， 但 也 有 点 复杂 。 
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6.4.1 例 1: 找 出 集合 中 的 所 有 键 
用 MapReduce 来 解决 这 个 问题 有 点 大 材 小 用 ， 不 过 还 是 一 种 了 解 其 机 制 的 和 不错 的 方 
式 。 要 是 已 经 知道 MapReduce 的 原理 ， 则 直接 跳 到 本 节 最 后 ， 看 看 MongoDB 中 用 
MapReduce 的 注意 事项 。 


MongoDB 没有 模式 ， 所 以 并 不 知晓 每 个 文档 有 多 少 个 键 。 通 和 常 找 到 集合 的 所 有 和 键 
的 最 好 方式 就 是 用 MapReduce。 在 本 例 中 ， 还 会 记录 每 个 键 都 出 现 了 多 少 次 。 内 峰 
文档 中 的 键 就 不 计算 了 ， 但 给 map 函数 做 个 简单 修改 就 能 实现 这 个 功能 了 。 


在 映射 环节 ， 想 得 到 文档 中 的 每 个 键 。map 函数 使 用 函数 emit“ 返 回 ”要 处 理 的 值 。 
emit 会 给 MapReduce 一 个 键 (类 似 于 前 面 group 所 使 用 的 键 ) 和 一 个 值 。 这 里 用 
emit 将 文档 某 个 键 的 计数 (count) 返回 ({count : 1})。 我 们 想 为 每 个 键 单独 计 
数 ， 所 以 为 文档 中 的 每 一 个 键 调用 一 次 emit。this 就 是 当前 映射 文档 的 引用 : 

> map = function() { 


. for (var key in this) 1 
DS emit (key, {count : 11}); 
» 


这 样 就 有 了 许 许多 多 {count : 1} 文档 ， 每 一 个 都 与 集合 中 的 一 个 键 相 关 。 这 种 
由 一 个 或 多 个 {count : 1} 文档 组 成 的 数组 ， 会 传递 给 reduce 国 数 。reduce 国 
数 有 两 个 参数 ， 一 个 是 kev， 也 就 是 emit 返回 的 第 一 个 值 ， 还 有 另外 一 个 数组 ， 
由 一 个 或 者 多 个 对 应 于 键 的 {count : 1} 文档 组 成 。 
> reduce = function(key, emits) { 
. total = 0; 


. for (var i in emits) | 
total += emits [i] .count:; 


.. return {"count" : totall}; 


reduce 一 定 要 能 被 反复 调用 ， 不 论 是 映射 环节 还 是 前 一 个 简化 环节 。 所 以 reduce 
返回 的 文档 必须 能 作为 reduce 的 第 二 个 参数 的 一 个 元 素 。 例 如 ，x 键 映射 到 了 3 
个 文档 {count 5 Ls Ld Ls eount | hs 08: 2} 和 {count i 
3}， 其 中 ia 键 用 于 区 别 。MongoDB 可 能 这 样 调 用 reduce: 


> rl1 = reduce("x", [{count : 1, id : 1}, {count : 1, id : 2}]) 
{count : 2} 


> r2 = reduce("x", [{count : 1, id : 3})) 
{count : 1)} 
> reEduce("x", [rli, r2]) 


{count : 3} 


不 能 认为 第 二 个 参数 总 是 初始 文档 之 一 〈 这 里 便 是 {count : 1}) 或 者 有 固定 长 
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度 。reduce 应 该 能 处 理 emit 文档 和 其 他 reduce 结果 的 各 种 组 合 。 
总 之 ，MapReduce 函数 类 似 这 样 ; 


> mr = db.runCommand ({"mapreduce" : "foo', "map" : map, "reduce" : 
reduce}) 
"result" : "tmp.mr.mapreduce 1266787811 1", 
rtimeMillis"” : 12，. 
rcounts" : { 
rinputn : 6 
Hemit"™ : 14 
loutput” : 5 
"OoK'" : true 


} 
MapReduce 返回 的 文档 包含 很 多 与 操作 有 关 的 元 信息 : 
Hresult" : "tmp.mr.mapreduce 1266787811_ 1" 


这 是 存放 MapReduce 结果 的 集合 名 。 这 是 个 临时 集合 ，MapReduce 的 连接 关闭 后 自动 
就 被 删除 了 。 本 章 稍 后 会 讲 如 何 指定 一 个 好 一 点 的 名 字 和 和 如何 让 集合 具有 持久 性 。 
"timeMillis" : 12 : 


操作 花费 的 时 间 ， 单 位 是 密 秒 。 


rcounts" : { ... } 

这 个 内 艇 文档 包含 3 个 键 。 
"input™ : 站 

发 送 到 map 国 数 的 文档 个 数 。 


emit"* : 14 


在 map 函数 中 emit 被 调用 的 次 数 。 


output' : 5 
结果 集合 中 创建 的 文档 数量 。 


"nrcounts" 对 调试 非常 有 帮助 。 
对 结果 集合 进行 查询 会 发 现 原 有 集合 的 所 有 键 及 其 计数 
> Qb [mr.zesult] .finat() 


{ "idn : " id", "value" : { "count" : 6 }} 
{ "idn : ra", "value" : { "count»” : 4 } } 
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{ "id" : br, rvalue" : { rcount" : 2 })} 
{ * id™ 3 "x", "value™ 3 ( "count™ 工 | 
{ 1 idn" : My", value'" : { secount" : 1 } } 


每 个 键 值 变 为 一 个 id"， 最 终 化 简 步 又 的 结果 变 为 "value"。 


6.4.2 


例 2: 网 页 分 类 


假设 有 个 网 站 ， 人 们 可 以 提交 其 他 网 页 的 链接 ， 比 如 reddit.com。 提 交 者 可 以 给 这 
个 链接 做 标签 ， 表 明 主 题 ， 比 如 “politics”“geek” 或 者 “icanhascheezburger”。 可 
以 用 MapReduce 找 出 哪个 主题 最 为 热门 ， 热 门 与 否 由 最 近 的 投票 决定 。 


首先 ， 建 立 一 个 map 函数 ， 发 出 (emit) 标签 和 一 个 基于 汶 行 度 和 新 皇 程 度 的 值 。 


map 


}; 


= function() { 

for {var i in this.tags) { 
var recency = 1/ (new Date{) - this.date),; 
var Score = recency * this.score; 


emit (this.tags [i], {"urls" : [this.url], "score" : score}); 


现在 就 化 简 同 一 个 标签 的 所 有 值 ， 形 成 这 个 标签 的 分 数 : 


reduce = function(key, emits) { 


}，; 


var total = {urls : [], score : 0} 
for (var i in emits) { 
emits[i] .urls.forEach (function(url) { 
total.urls.push (url),; 
} 


total.score += emits [i] .score; 


} 


return total:; 


最 终 的 集合 包含 每 个 标签 的 URL 列表 和 表示 该 标签 流行 程度 的 分 数 。 


6.4.3 MongoDB 和 MapReduce 


前 面 两 个 例子 只 用 到 了 mapreduce、map 和 reduce 键 。 这 3 个 键 是 必需 的 ， 但 是 
MapReduce 命令 还 有 很 多 可 选 的 键 。 


"finalize" : 国 数 


将 reduce 的 结果 发 送 给 这 个 键 ， 这 是 处 理 过 程 的 最 后 一 步 。 


"keeptemp" :布尔 
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连接 关闭 时 临时 结果 集合 是 否 保存 。 


"output" : 字符 串 
结果 集合 的 名 字 。 设 定 该 项 则 隐 含 着 keeptemp : 七 rue。 


rquery": 文档 : 
会 在 发 往 map 函数 前 ， 先 用 指定 条 件 过 滤 文 档 。 


。 "sort" :文档 
在 发 往 map 前 先 给 文档 排序 (与 1imit 一 同 使 用 非常 有 用 )。 


。 mlLimitn :整数 
发 往 map 国 数 的 文档 数量 的 上 限 。 


"scope" : 文档 
JavaScript 代码 中 要 用 到 的 变量 。 


nverbose" :布尔 
是 否 产 生 更 加 详尽 的 服务 器 日 志 。 


1 ,finalize 函 数 
和 group 命令 一 样 ，MapReduce 也 可 以 使 用 finalize 国 数 作为 参数 。 它 会 在 最 后 
reduce 得 到 输出 后 执行 ， 然后 将 结果 存 到 临时 集合 中 o 


体积 大 点 的 结果 对 MapReduce 来 说 还 好 ， 因 为 不 像 group 那样 有 4 MB 的 限制 。 
然而 ， 无 论 如 何 信息 还 是 要 传递 的 ， 所 以 finalize 就 是 一 个 计算 平均 数 、 裁 前 数 
组 、 清 除 多 余 信 息 的 恰当 时 机 。 


2. 保留 结果 集合 

默认 情况 下 ，Mongo 会 在 执行 MapReduce 的 时 候 创建 一 个 临时 和 集合， 集合 名 是 系统 选 
-的 一 个 常人 不 太 会 用 的 名 字 ， 其 中 含有 mr， 执行 MapReduce 的 集合 名 ， 时 间 惟 ， 数 
据 库 作业 ID， 将 这 些 用 “.” 连 成 一 个 字符 串 。 结 果 产 生 形 如 “mr.stuff .18234210220.2” 
这 样 的 名 字 。MongoDB 会 在 调用 的 连接 关闭 时 自动 销毁 这 个 集合 (也 可 以 在 用 完 之 后 
手动 删除 )。 如 果 想 保留 这 个 集合 ， 就 要 指定 keeptemp 为 true。 


如 果 要 经 常 使 用 这 个 临时 集合 ， 没 准 想 给 它 起 个 好 点 的 名 字 。 利 用 out 选项 (该 选 
项 接受 字符 串 作 为 参数 ) 就 可 以 指定 一 个 人 类 易 懂 的 名 字 。 如 果 用 了 out 选项 ， 就 
不 必 指 定 keeptemp : true 了 ， 因 为 已 经 隐 含 在 其 中 了 。 即 便 起 了 一 个 非常 好 的 
名 字 ，MongoDB 也 会 在 MapReduce 的 中 间 过 程 使 用 自动 生成 的 集合 名 。 处 理 完成 
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后 ， 自 动 更 改 成 指定 的 名 字 ， 这 个 过 程 是 原子 的 。 也 就 是 说 ， 如 果 多 次 对 同一 个 集 
合 调用 MapReduce， 也 不 会 出 现 使 用 不 完整 集合 的 情况 。 


MapReduce 产生 的 集合 就 是 一 个 普通 的 集合 ， 在 其 上 执行 MapReduce 一 点 问题 也 
没有 ， 或 者 在 前 一 个 MapReduce 的 结果 上 执行 MapReduce 也 没有 问题 ， 如 此 往复 
直到 无 穷 都 没 问 题 ! 


3. 对 文档 子 集合 执行 MapReduce 
有 时候 需要 对 集合 的 一 部 分 执行 MapReduce。 只 需要 在 传 给 map 函数 前 添加 一 个 查 
询 来 过 滤 一 下 文档 就 好 了 。 


每 个 传递 给 map 函数 的 文档 都 要 事先 反 序列 化 ， 从 BSON 转换 成 JavaScript 对 象 ， 
这 个 过 程 非常 耗资 源 。 要 是 事先 能 确定 只 对 集合 的 一 部 分 文档 执行 MapReduce， 增 
加 一 层 过 滤 会 极 大 地 提高 速度 。 过 滤 也 无 非 就 是 用 lquery'".、 "1imit" 和 Waort™ 
键 指 定 的 。 

"query" 键 的 值 是 一 个 查询 文档 。 通 和 常 查询 返回 的 结果 就 传递 给 了 map 图 数 。 例 


如 ， 有 个 应 用 程序 做 跟踪 分 析 ， 需 要 上 周 的 概要 ， 只 要 使 用 如 下 命令 对 上 周 的 文档 
执行 MapReduce 就 好 了 : 


> db.runCommand ({'mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
rquery" : {"date" : {"S$gt" : week ago}}}) 


sort 选项 一 般 和 1imit 一 同 发 挥 重要 作用 。1imit 也 可 以 单独 使 用 ， 用 来 截取 一 
部 分 文档 发 送 给 map 函数 。 
如 果 在 上 个 例子 中 想 分 析 最 近 10 000 个 页 面 视图 (而 不 是 最 近 一 周 的 )， 则 可 以 借 


助 1imit 和 sort: 


> db.runCommand{({{"mapreduce" : "analytics", "map" : map, "reduce' : reduce, 
nlimit" : 10000, "sort" : {date" : -1}}) 


query、1imit、sort 可 以 随意 组 合 ， 但 要 是 没有 1imit，sort 单独 使 用 的 用 处 不 大 。 


4. 使 用 作用 域 


MapReduce 可 以 为 map、reduce、finalize 函数 都 采用 一 种 代码 类 型 。 但 多 数 
语言 里 ， 可 以 指定 传递 代码 的 作用 域 。 然 而 MapReduce 会 忽略 这 个 作用 域 。 它 有 
其 自己 的 作用 域 键 "scope"， 如 果 想 在 MapReduce 中 使 用 客户 端的 值 ， 则 必须 使 
用 这 个 参数 。 可 以 用 “变量 名 : 值 ” 这 样 的 普通 文档 来 设置 该 选项 ， 然 后 在 map、 
reduce 和 finalize 函数 中 就 能 使 用 了 。 作 用 域 在 这 些 函 数 内 部 是 不 变 的 。 
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例如 ， 在 上 一 节 的 例子 中 ,用 1/ (new Date() - this.date) 计算 了 页 面 的 新 近 
程度 。 还 可 以 将 当前 日 期 作为 作用 域 的 一 部 分 传递 进去 : 


> db .runCcommand ({"mapreduce' : "webpages', "map" : map, "reduce" : reduce, 
"scope" : {now : new Date()}}) 


这 样 ， 在 map 图 数 中 就 能 计算 1/ (now - this.date) 了 。 


5. 获得 更 多 的 输出 
还 有 个 用 于 调试 的 详细 输出 选项 。 如 果 想 看 看 MapReduce 的 运行 过 程 ， 可 以 用 


"verbose': 七 YUe。 


也 可 以 用 print 把 map、reduce、finalize 过 程 中 的 信息 输出 到 服务 器 日 志 上 。 
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进 阶 指南 


MongoDB 支持 一 些 先 前 没有 讨论 的 高 级 功能 。 要 想 成 为 高 级 用 户 ， 一 定 得 看 看 本 
章 ， 本 章 具 体会 涵盖 下 列 主题 。 


。 通过 数据 库 命 令 使 用 高 级 特性 。 

。 使 用 一 种 特殊 的 集合 一 一 固定 大 小 的 集合 。 
。 使 用 GridFS 存储 大 文件 。 

。 利用 MongoDB 对 服务 端 JavaScript 的 支持 。 
。 理解 何 为 数据 库 引 用 ， 何 时 该 使 用 。 


7.1 数据 库 命令 

前 面 的 章节 讲 到 了 如 何在 MongoDB 中 创建 、 读 取 、 更 新 、 删 除 文档 。 除 了 这 些 
基本 操作 ，MongoDB 还 支持 大 量 的 高 级 操作 ， 这 些 操作 都 是 用 命令 实现 的 。 除 了 
创建 、 旋 取 、 更 新 和 删除 ， 其 他 的 功能 都 是 作为 命令 实现 的 。 

前 面 的 章节 已 经 涵盖 了 一 些 命令 。 例 如 ， 第 3 章 讲 了 使 用 getLastError 来 查看 一 
个 更 新 对 多 少 个 文档 起 作用 


> db .count .updatel({x : 1}，{S$inece : {x : 1}}, false, true) 
> db .runcommand ({getLastError : 1}) 





下 导 工 五 区 
"UpdatedExisting" :; true, 
nn 日 5 

ok ; true 


} 
本 节 会 深入 研究 命令 究竟 是 什么 ， 它 们 是 如 何 实现 的 。 还 会 介绍 一 些 MongoDB 中 
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7.1.1 命令 的 工作 原理 

可 能 大 家 都 熟悉 命令 drop: 要 在 shell 中 删除 一 个 集合 ， 执 行 db .test .drop ()。 
在 幕后 ， 这 个 冰 数 实际 运行 的 是 drop 命令 ， 可 以 用 runcommana 来 达到 完全 一 样 的 
效果 : 


> db.runCommand ({"drop" : "test"*}); 
"nIndexesWas"™ : 1, 
msg" : "indexes dropped for collection', 
Hns" : test.test', 
Hok" : true 


} | 

命令 的 响应 是 作为 结果 的 一 个 文档 ， 包 含 了 命令 是 否 成 功 执行 ， 还 可 能 有 些 其 他 的 
命令 输出 的 信息 。 命 令 的 响应 应 该 总 是 有 "ok" 这 个 键 。 如 果 "ok" 的 值 是 true， 
代表 命令 成 功 执行 ， 如 果 为 false， 就 代表 命令 执行 出 了 某 些 问题 。 


-ya 


1.5 及 之 前 的 版 本 ，"wok" 的 值 是 1.0 或 者 0.0， 而 不 是 true 和 false。 


如 果 "ok" 为 false， 还 会 有 男 外 的 一 个 叫 "errmsg" 的 键 。 "errmsg" 的 值 为 
一 个 字符 串 ， 表 示 命 令 失 败 的 原因 。 例 如 ， 如 果 对 刚刚 删除 的 集合 再 次 运行 arop 
命令 : 


> db.runCommand{{"drop" : "test"}); 
{ "errmsg" : "ns not found", "ok" : false } 


MongoDB 中 的 命令 其 实 是 作为 一 种 特殊 类 型 的 查询 来 实现 的 ， 这 些 查询 针对 $cma 
集合 来 执行 。runcommanad 仅仅 是 接受 命令 文档 ， 执 行 等 价 查 询 ， 因 此 Adrop 调用 
实际 上 是 这 样 的 : 

db.s$cmd.findone{{"drop" : "test"}); 
当 MongoDB 服务 器 得 到 查询 scma 集合 的 请 求 上 时 ， 会 启动 一 套 特 殊 的 逻辑 来 处 理 ， 
而 不 是 交 给 普通 的 查询 代码 来 执行 。 几 乎 所 有 MongoDB 驱动 程序 都 提供 一 个 类 似 
于 runCcommana 的 帮助 方法 来 执行 命令 ， 但 是 如 果 有 必要 ， 总 是 可 以 使 用 一 个 简单 
查询 的 方式 来 运行 命令 。 
访问 有 些 命令 需要 有 管理 员 权 限 ， 必 须 在 adamin 数据 库 里 面 运行 。 如 果 在 别 的 数据 
库 里 运行 这 样 的 命令 ， 会 得 到 “拒绝 访问 ”的 错误 。 
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7.1.2 命令 参考 
本 书写 作 时 ，MongoDB 支持 超过 75 个 命令 ， 而 且 今 后 会 有 更 多 命令 的 。 要 获得 
所 有 命令 的 最 新 列表 ， 有 两 种 方式 。 


。 在 shell 中 运行 db.1listCommands ()， 或 者 从 驱动 程序 中 运行 等 价 的 命令 list- 


Commands。 

。 州 览 管理 员 接 口 http://localhost:28017/_commands (关于 管理 员 接口 详 见 第 8 章 )。 
下 面 列举 了 MongoDB 中 最 经 常 使 用 的 命令 ， 并 给 出 了 示例 文档 ， 以 说 明 这 些 命令 
是 如 何 表示 的 。 


。 buildIinfo 
{"buildInfo" : 1} 


管理 专用 命令 ， 返 回 MongoDB 服务 器 的 版 本 号 和 主机 的 操作 系统 。 


。 ColL1LStatS 


{"collstats" : collection} 


返回 指定 集合 的 统计 信息 ， 包 括 数据 大 小 、 已 分 配 的 存储 空间 和 索引 的 大 小 。 


ee distinct 


{"distinct" : collection, "key": key, "query": query)} 


列 出 指定 集合 中 满足 查询 条 件 的 文档 的 指定 键 的 所 有 不 同 值 。 


。 drop 


{"drop" : collection)} 


删除 集合 的 所 有 数据 。 


®。 dropDatabase 


{"dropDatabase" : 1} 


删除 当前 数据 库 的 所 有 数据 。 


。 dropIndexes. 


{"dropIndexes" : collection, "index" : name)} 


删除 集合 里 面 名 称 为 name 的 索引 ， 如 果 名 称 为 "*"， 则 删除 全 部 索引 。 


°° findAndModify 
findandModify 的 用 法 详 见 第 3 章 。 


译注 1: 到 2011 年 4 月 ， 已 经 有 103 个 命令 了 。 
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getLastError z 

{"getLastError" : 1[, "w" : w[, "wtimeout" : Eimeout]]) 

查看 对 本 集合 执行 的 最 后 一 次 操作 的 错误 信息 或 者 其 他 状态 信息 在 w 台 服务 
器 复制 集合 的 最 后 操作 之 前 ， 这 个 命令 会 阻塞 (超时 的 毫秒 数 到 李 ) 。 


* lisMaster 


{"isMaster" :. 1} 


检查 本 服务 器 是 主 服务 器 还 是 从 服务 器 。 


sa ListCommands 


{"listcommands" : 1} 


返回 所 有 可 以 在 服务 器 上 运行 的 命令 及 相关 信息 。 


* listDatabases 
{"listDatabases" : 1} 


管理 专用 命令 ， 列 出 服务 器 上 所 有 的 数据 库 。 


* Ping 
{"ping" . 1} 


检查 服务 器 链接 是 否 正常 。 即 便服 务 器 上 锁 了 ， 这 条 命令 也 会 立刻 返回 。 


se renameCollection 


{"renameCollection" : a, "to" : b)} 
将 集合 a 重 命 名 为 bp， 其 中 a 和 上 b 都 必须 是 完整 的 集合 命名 空间 (例如 "foo. 
bar" 表示 foo 数据 库 中 的 bar 集合 )。 


"repairDatabase 


{"repairDatabase" : 1} 


修复 并 压缩 当前 数据 库 ， 这 个 操作 可 能 非常 耗 时 。 详 见 8.4.5 节 。 


和 ServerStatus 


{"serverstatus" : 1} 


返回 这 台 服 务 器 的 管理 统计 信息 。 详 见 8.2 节 。 


要 记 住 ， 上 面 列举 的 只 是 一 小 部 分 命令 。 本 书后 面 还 会 涉及 一 些 ， 要 查看 完整 的 列 
表 ， 只 要 运行 1istcommands 就 可 以 了 。 
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7.2 固定 集合 


前 面 已 经 介绍 了 ，MongoDB 如 何 动态 建立 普通 集合 ， 如 何 应 对 增长 的 数据 自动 调整 
大 小 。MongoDB 还 支持 另外 一 种 集合 一 一 固定 集合 ， 要 事先 创建 ， 而 且 大 小 固定 
(参见 图 7-1)。 固 定 大 小 的 集合 带 来 个 有 趣 的 问题 ， 如 何 向 一 个 满 的 固定 集合 插入 数 
据 呢 ?答案 是 固定 集合 很 像 环 形 队列 ， 如 果 空 间 不 足 ， 最 早 的 文档 就 会 被 删除 ， 为 新 
的 文档 腾 出 空间 (参见 图 7-2)。 这 意味 着 固定 集合 在 新 文档 插入 的 时 候 自 动 淘汰 最 早 


的 文档 。 





图 7-1: 插入 新 文档 到 队 尾 





图 7-2: 当 队 列 满 了 ， 新 的 元 素 会 将 最 早 的 元 素 替 换 掉 
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有 些 操 作 不 适用 于 固定 集合 。 不 能 删除 文档 (除了 前 面 所 说 的 自动 淘汰 )， 更 新 
不 得 导致 文档 移动 (通常 更 新 意味 着 尺寸 增 大 )。 基 于 上 述 两 点 ， 可 以 保证 在 固 
定 集合 中 的 文档 以 插入 的 顺序 存储 ， 而 且 不 必 维 护 一 个 已 删除 的 文档 的 释放 空间 
列表 。 


固定 集合 和 普通 集合 还 有 一 个 区 别 ， 就 是 在 默认 情况 下 固定 集合 没有 索引 ， 即 便 是 
"_id" 上 也 没有 索引 。 


7.2.1 属性 及 用 法 


固定 集合 的 功能 与 限制 合 二 为 一 ， 给 我 们 带 来 了 些 有 趣 的 特性 。 第 一 ， 对 固定 集合 
进行 插入 速度 极 快 。 做 插入 操作 时 ， 无 需 额外 分 配 空 间 ， 服 务 器 也 不 必 查 找 空闲 列 
表 来 放置 文档 。 直 接 将 文档 插入 集合 的 “末尾 ”就 好 了 ， 如 有 必要 就 将 旧 的 覆盖 。 
默认 情况 下 插入 也 无 需 更 新 索引 ， 所 以 插入 实际 上 是 一 个 简单 的 memcpy。 


第 二 个 有 趣 的 属性 就 是 按照 插入 顺序 输出 的 查询 速度 极 快 。 因 为 文档 本 身 就 是 按照 
插入 顺序 存储 的 ， 按 照 这 个 顺序 查询 就 是 遍历 一 下 ， 返 回 结果 的 顺序 就 是 文档 在 磁 
盘 上 的 顺序 。 黑 认 情 况 下 ， 对 固定 集合 进行 查找 都 会 以 播 入 顺序 返回 结果 。 


最 后 一 个 属性 ， 固 定 集 合 能 够 在 新 数据 插入 时 ， 自 动 询 汰 最 早 的 数据 。 揪 入 快速 、 
按照 插入 顺序 查询 也 快速 、 自 动 询 汰 ， 这 几 样 组 合 起 来 使 得 固定 集合 特别 适合 像 日 
志 这 种 应 用 场景 。 事 实 上 ，MongoDB 中 设计 固定 集合 的 目的 就 是 用 来 存储 内 部 的 
复制 日 志 oplog (关于 复制 和 oplog， 详 见 第 9 章 )。 固 定 集合 还 有 个 很 好 的 用 法 ， 
就 是 缓存 少量 的 文档 。 一 般 来 说 ， 固 定 集合 适用 于 任何 想 要 自动 询 汰 过 期 属性 的 场 
景 ， 没 有 太 多 的 操作 限制 。 


7.2.2 创建 国定 集合 


不 像 普通 集合 ， 固 定 集 合 必须 要 在 使 用 前 显 式 地 创建 。 使 用 create 命令 创建 。 在 
shell 中 ， 可 以 使 用 createCollection 来 创建 : 


> db.createCollection("my collection", {capped: true，size: 100000}); 
{ "ok" : true } 


上 面 的 命令 创建 了 一 个 固定 集合 my collection， 大 小 是 100 000 字 节 。create- 
Collection 也 有 些 别 的 选项 。 除 了 指定 总 的 容量 ， 还 可 以 指定 文档 数量 的 上 限 : 


> db.createCollection{"my collection", {capped: true, size: 100000, 
max: 100}); 
{ "ok" : true } 
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当 指定 文档 数量 上 限时 ， 必 须 同 时 指定 大 小 。 淘 汰 机 制 只 有 在 容量 还 没有 乙 
满 时 才 会 依据 文档 数量 来 工作 。 要 是 容量 满 了 ， 淘 汰 机 制 则 会 依据 容量 来 
工作 ， 就 像 别 的 固定 集合 一 样 。 





还 可 以 通过 转换 已 有 的 普通 集合 的 方式 来 创建 国定 集合 。 使 用 convertTocapped 命令 
来 完成 这 个 操作 。 下 面 的 例子 中 ， 会 把 test 集合 转换 成 大 小 为 10 000 字 节 的 固定 集合 。 


> db.runcommand({convertToCapped: "test", size: 10000}); 
{ "ok" : true } 


7.2.3 自然 排序 


固定 集合 有 种 特殊 的 排序 方式 ， 叫 做 自然 排序 。 自 然 顺 序 就 是 文档 在 磁盘 上 的 顺序 
( 见 图 7-3)。 


因为 固定 集合 的 文档 总 是 按照 插入 的 顺序 存储 的 ， 自 然 顺 序 就 是 与 此 相同 的 。 前 面 
讲 到 过 ， 在 默认 情况 下 ， 查 询 固 定 集合 后 就 是 按照 插入 顺序 返回 文档 。 也 可 以 使 用 
自然 排序 按照 反 向 插入 的 顺序 查询 ( 见 图 7-4)。 


> db.my_collection.find() .sort ({"$natural": -1})) 





图 7-3: 按照 {"$natural"” : 1} 排序 


使 用 {"$natural": 1} 表示 与 默认 顺序 相同 。 非 固定 集合 不 能 保证 文档 按照 特定 
顺序 存储 ， 所 以 自然 顺序 的 意义 不 大 。 
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7-4: 按照 {"$natural":-1} 排序 


7.2.4 ”尾部 游标 


尾部 游标 是 一 种 特殊 的 持久 游标 ， 这 类 游标 不 会 在 没有 结果 后 销毁 。 游 标 受 到 tail 
-f£ 命令 的 启发 ， 类 似 地 会 尽 可 能 持续 地 获取 结果 输出 。 因 为 这 类 游标 在 没有 结果 后 
也 不 销毁 ， 所 以 一 旦 有 新 文档 添加 到 集合 里 面 就 会 被 取 回 并 输出 。 尾 部 游标 只 能 用 
在 固定 集合 上 。 


可 懂 Mongo shell 并 不 支持 尾部 游标 ， 但 是 可 以 看 看 PHP 中 的 例子 ， 


$cursor = $collection->find() ->tailable (),， 


while {true) { | 
it {1$cursor->hasNext ()) { 
if {$cursor->dead{()) { 
break,; 
} 


sleep{(1); 


} 


else { 
while (cursor->hasNext ()) { 
do_stuff (cursor->getNext () ) ; 


游标 没有 销毁 ， 要 么 处 理 结 果 ， 要 么 等 着 有 更 多 的 结果 。 





98 | 第 


www.Linuxidc.com 
7.3 GridFS: 存储 文件 


GridFs 是 一 种 在 MongoDB 中 存储 大 二 进 制 文件 的 机 制 。 使 用 GridFS 存 文件 有 如 
下 几 个 原因 。 


。 利用 GridFS 可 以 简化 需求 。 要 是 已 经 用 了 MongoDB，GridFS 就 可 以 不 需要 使 用 
”独立 文件 存储 架构 。 : 
。 GridFS 会 直接 利用 业已 建立 的 复制 或 分 片 机 制 ， 所 以 对 于 文件 存储 来 说 故障 恢复 
和 扩展 都 很 容易 。 : 
。 GridFS 可 以 避免 用 于 存储 用 户 上 传 内 容 的 文件 系统 出 现 的 某 些 问题 。 例 如 ，GridFS 
在 同一 个 目录 下 放置 大 量 的 文件 是 没有 任何 问题 的 。 : 
。 GridFS 不 产生 磁盘 碎片 ， 因 为 MongoDB 分 配 数据 文件 空间 时 以 2 GB 为 一 块 。 


7.3.1 开始 使 用 GridFS: mongofiles 


最 简单 的 开始 使 用 GridFS 的 方法 就 是 利用 mongofiles 实用 程序 。mongofiles 内 
置 在 MongoDB 发 布 版 中 ， 可 以 用 来 在 GridFS 中 上 传 、 下 载 、 列 示 、 查 找 或 删除 文 
件 。 像 其 他 命令 行 工 具 一 样 ， 执 行 mongofiles --help 可 以 查看 可 用 旋 项 。 下 面 
将 会 介绍 如 何 用 mongofiles 从 文件 系统 向 GridFS 上 传 文件 ， 列 出 GridFS 中 的 所 
有 文件 ， 下载 刚 上 传 的 文件 。 


S echo "Hello, world" > foo.txt 

$ ./mongofiles put foo.txt 

connected to: 127.0.0.1 

added file: { id: ObjectId{('4c0d2a6c3052c25545139b88')， 
filename: "foo.txt", length: 13, chunkSize: 262144, 
uploadDate: new Date(1275931244818) ， 
md5: "a7966bf58e23583c9a5a4059383ff850" } 

done! 

$ ./mongofiles ligst 

connected to: 127.0.0.1 

foo.txt 13 

$ rm foo.txt 

$ ./mongofiles get foo.txt 

connected to: 127.0.0.1 

done write to: foo.txt 

$ cat foo.txt 

Hello, world 


上 面 的 例子 中 ,使 用 了 mongofiles 的 3 个 基本 操作 : put、 list 和 get。Pput 将 文 
件 系统 中 的 一 个 文件 添加 到 GridFS 中 ，1ist 会 把 所 有 添加 到 GridFS 中 的 文件 列 出 
来 ，get 则 是 put 的 逆 操 作 ， 它 将 GridFS 中 的 文件 写 入 到 文件 系统 中 。 mongofiles 


还 支持 另外 两 个 操作 : search 用 来 按 文件 名 查找 GridFS 中 的 文件 ，delete 则 从 
GridFS 中 删除 一 个 文件 。 
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7.3.2 通过 MongoDB 了 驱动 程序 操作 GridES > 
前 面 已 经 看 到 ， 使 用 命令 行 操作 GridFS 十 分 简便 ， 和 使 用 MongoDB 驱动 程序 也 一 
样 简便 。 例 如 ， 使 用 MongoDB 的 Python 驱动 程序 PyMongo， 可 以 实现 上 面 用 
mongofiles 执行 的 一 系列 操作 ， 

>>> from pymongo import Connection 

>>> limport gridfs 

>>> db = Connection() .test 

>>> fs = gridfs.GridFs (db) 

>>> file id = fs.put ("Hello, world", filename="foo.txt") 

>>»> fs,listt{) 

[u'foo.txt'] 

>>> fsa.get (file id) .read!()} 

'Helle, worlgd' 
PyMongo 中 操作 GridFS 的 API 与 mongofiles 的 API 十 分 类 似 ， 都 可 以 很 容易 地 
执行 基本 的 put、get 和 1ist 操作 。 差 不 多 所 有 MongoDB 的 驱动 程序 与 GridFS 
打交道 都 苯 循 这 个 基本 的 模式 ， 一 般 还 会 提供 一 些 高 级 的 功能 。 要 想 了 解 与 GridFS 
有 关 的 驱动 程序 特有 的 信息 ， 就 得 查看 你 所 使 用 的 驱动 程序 的 文档 了 。 


7.3.3 ”内 部 原理 

GridFS 是 一 个 建立 在 普通 MongoDB 文档 基础 上 的 轻 量 级 文件 存储 规范 。MongoDB 
服务 器 实际 上 对 GridFS 请 求 没什么 特别 照顾 ， 所 有 相关 工作 都 由 客户 端 驱动 或 者 工 
具 来 完成 。 


GridFS 的 一 个 基本 思想 就 是 可 以 将 大 文件 分 成 很 多 块 ， 每 块 作为 一 个 单独 的 文档 存 
储 ， 这 样 就 能 存 大 文件 了 。 由 于 MongoDB 支持 在 文档 中 存储 二 进 制 数据 ， 可 以 最 
大 限度 减 小 块 的 存储 开销 。 另 外 ， 除 了 存储 文件 本 身 的 块 ， 还 有 一 个 单独 的 文档 用 
来 存储 分 块 的 信息 和 文件 的 元 数据 。 


GridFS 的 块 有 个 单独 的 集合 。 默 认 情 况 下 ， 块 将 使 用 fs.chunks 集合 ， 如 有 需要 
可 以 覆盖 。 这 个 块 集合 里 面 文档 的 结构 是 非常 简单 的 : 


{ 


" id" : ObjectId{("..."}, 

mm : 0, 

"data" : BinData("™,..."), 
"files id" : ObjectId("...") 


} 


和 别 的 MongoDB 文档 一 样 ， 块 也 有 自己 唯一 的 " id"。 另 外 ， 还 有 些 别 的 键 。 
"files_id" 是 包含 这 个 块 元 数据 的 文件 文档 的 "id"。"n" 表示 块 编号 ， 也 就 是 这 
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个 块 在 原文 件 中 的 顺序 编号 。 最 后 ，"data" 包含 组 成 文件 块 的 二 进 制 数据 。 


文件 的 元 数据 放 在 另 一 个 集合 中 ， 默 认 是 fs.files。 这 里 面 的 每 个 文档 代表 GridFS 
中 的 一 个 文件 ， 与 文件 相关 的 自 定义 元 数据 也 可 以 存在 其 中 。 除 了 用 户 自 定义 的 键 ， 
GridFS 规范 还 定义 了 一 些 键 。 

。 ia 

文件 唯一 的 ia， 在 块 中 作为 "files_ia" 键 的 值 存储 。 

。 length 

文件 内 容 总 的 字 古 数 。 

* chunkSize 


每 块 的 大 小 ， 以 字 节 为 单位 。 默 认 是 256 K， 必 要 时 可 以 调整 。 


。 uploadDate 


文件 存 入 GridFS 的 时 间 惟 。 


® mds 


文件 内 容 的 md5 校 验 和 ， 由 服务 器 端 生 成 。 


在 所 有 必需 的 键 中 ， 最 有 趣 的 (或 者 说 最 不 太 好 理解 的 ) 就 是 这 个 "mds" 了 。 
"md5" 的 值 是 由 服务 性 冰 用 filemds5 命令 生成 的 ， 用 于 计算 上 传 块 的 md5 校 验 和 。 
也 就 意味 着 用 户 可 以 检验 "mds" 键 的 这 个 值 ， 确 保 文 件 正 确 上 传 了 。 


理解 了 GridFS 规范 以 后 ， 实 现 一 些 驱动 程序 没有 提供 的 功能 就 很 容易 了。 例如 ， 可 
使 用 distinct 命令 获取 GridFS 中 不 重复 的 文件 名 列表 。 


> db.fe.files.distinct (rilenamen ) 
[ frfEoo.txto ] 


7.4 服务 器 端 脚本 


在 服务 器 端 可 以 通过 db .eval 冰 数 来 执行 JavaScript 脚本 。 也 可 以 把 JavaScript 脚 
本 保存 在 数据 库 中 ， 然 后 在 别 的 数据 库 命 令 中 调用 。 


7.4.1 db.eval 


利用 ab .eval 可 以 在 MongoDB 的 服务 器 端 执行 任意 的 JavaScript 脚本 。 这 个 国 数 
先 将 给 定 的 JavaScript 字符 串 传 送 给 MongoDB (在 这 里 执行 )， 然 后 返回 结果 。 


db .eval 可 以 用 来 模拟 多 文档 事务 : db .eval 锁 住 数据 库 ， 然 后 执行 JavaScript， 再 
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解锁 。 虽 然 没 有 内 置 的 回 滚 机 制 ， 但 这 的 确 能 保证 一 系列 操作 按照 指定 顺序 发 生 〈 除 
非 出 错 )。 | 
发 送 代码 有 两 种 选择 ， 或 者 封装 进 一 个 函数 ， 或 者 不 封装 。 下 面 两 行 代码 是 等 价 的 : 
> db.eval {return 1;") 
二 
> db.eval{"function() { return 1; }") 
1 
只 有 传递 参数 的 时 候 ， 才 必须 要 封 疙 成 一 个 函数 。 参 数 通 过 db .eval 的 第 二 个 参数 
传递 ， 要 写成 一 个 数组 的 形式 。 例如 ， 如 果 想 给 一 个 函数 传递 USername, 可 以 这 
么 做 : 


> db.eval ("function{({u) { print('Hello, ?+u+'!1'); }", [username]) 
有 必要 的 话 可 以 传递 多 个 参数 。 例 如 ， 要 计算 3 个 数 的 和 ， 可 以 这 样 : 
> db.eval ("function(x,y,2z) { return x +y + 2; }", [numl, num2, num3]) 


numl 对 应 x，num2 对 应 y，num3 对 应 z。 如 果 想 使 用 可 变数 量 的 参数 ， 调 用 函数 
时 JavaScript 会 把 参数 存 成 一 个 数组 。 


db .eval 的 表达 式 要 是 复杂 的 话 ， 调 试 起 来 就 需要 些 技巧 了 。JavaScript 脚本 在 数 
据 库 上 执行 ， 通 常 在 出 错 信 息 里 没有 能 帮助 调试 的 行 写 。 调 试 的 一 个 好 方法 就 是 将 
调试 信息 写 进 数据 库 日 志 中 ， 这 个 可 以 通过 print 函数 来 完成 : 


> db.eval ("print (‘Hello, world!');"); 


7.4.2 ”存储 JavaScript : 

每 个 MongoDB 的 数据 库 中 都 有 个 特殊 的 集合 ， 叫 做 system.js， 用 来 存放 JavaScript 变 
量 。 这 些 变量 可 以 在 任何 MongoDB 的 JavaScript 上 下 文中 调用 ， 包 括 "$where" 子 
句 ，dqb .eval 调用 ，MapReduce 作业 。 用 insert 就 可 以 将 变量 加 进 system.js 中 。 


> db.system.js.insert{({" id" : "x", "value" : 1}) 
> db.system.js.insert ({" id" : "y", "value" : 2}) 
> db.system.js.insert({" id" : "2z"», "value* : 3}) 


上 例 在 全 局 作用 域 中 定义 了 x、y、z。 现 在 要 是 想 对 其 求 和 ， 可 以 这 样 : 


> db.eval (!'return Xx+y+2;") 
6 


除了 一 些 简 单 的 值 ，system.js 也 可 以 用 来 存放 JavaScript 人 代码。 这样 就 可 以 很 方便 
地 自 定义 一 些 实用 程序 。 例 如 ， 要 用 JavaScript 写 一 个 日 志 函 数 ， 就 可 以 将 其 存放 
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到 system.js 中 : 


> db.system.js.insert ({" id" : "*]og", "value" : 
. function(msg, level) | 
Var levels = ["DEBUG'", "WARN", "ERROR", "FATAL"]; 
level = level ? level : 0; // check if level is defined 
Var now = new Date(); 
print (now + " " + levels[level] + msg)}; 


}}) a 
现在 ， 可 以 在 任意 的 JavaScript 程序 中 调用 这 个 函数 : 
> db.eval ("x = 1; log('x is 1I+X) 1 xX = 2; log('x 1B greater than 1', 1});"); 
数据 库 日 志 会 含有 类 似 下 面 这 样 的 内 容 : 


Fri Jun 11 2010 11:12:39 GMT-0400 (EST) DEBUG x is 1 
Fri Jun 11 2010 11:12:40 GMT-0400 (EST) WARN x is greater than 1 


使 用 存储 的 JavaScript 缺点 就 是 代码 会 与 常规 的 源 代码 控制 脱离 ， 会 搅乱 客户 端 发 
送 来 的 JavaScript。 
最 适合 使 用 存储 的 JavaScript 的 情况 就 是 程序 中 有 多 个 地 方 (也 可 能 是 不 同 的 程序 ， 
或 者 不 同 语言 的 代码 ) 都 要 用 到 一 个 JavaScript 函数 。 将 这 样 的 函数 放置 在 中 心 位 
置 ， 要 是 有 更 新 的 话 就 可 以 不 必 每 处 都 修改 。 要 是 JavaScript 代码 很 长 又 要 频 营 使 
用 的 话 ， 也 可 以 使 用 存储 的 JavaScript， 这 样 存 一 次 会 节省 不 少 网 络 传输 时 间 。 


7.4.3 ”安全 性 

执行 JavaScript 代码 ， 就 必须 要 谨慎 考虑 MongoDB 的 安全 性 。 使 用 不 慎 ， 就 会 发 
生 类 似 于 关系 型 数据 库 的 注入 式 攻 击 。 好 在 我 们 能 比较 容易 地 避免 这 些 ， 安 全 地 使 
用 JavaScript。 


若是 想 打印 “Hello, 用 户 名 ! ”给 用 户 。 其 中 的 用 户 名 保存 在 一 个 名 为 username 
的 变量 中 。 可 以 像 下 面 这 样 写 这 段 程序 : 

> func = "function() { print('Hello, "+username+"!'); }" 
如 果 username 是 用 户 定义 的 ， 就 可 能 会 是 这 样 的 字符 串 ");， db.dropData 
base(); print('"， 这 样 代码 就 成 了 下 面 这 样 ， 


> func = "function() { print('Hello, ')}; db.dropDatabase(); print('!1'); 


面 


整个 数据 库 都 锌 清 干净 了 ! 
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为 了 避免 这 种 情况 ， 要 限定 作用 域 。 例 如 ， 在 PHP 中 应 该 像 这 样 写 : 


$func = new MongoCode ("function() { print{('Hello, "+username+"!'!).; }", 
. array ("usSername" => $username)); 


数据 库 就 会 安全 地 输出 如 下 字符 : 
Hello, '); db.dropDatabase{(); print('! 


绝 大 多 数 驱 动 程序 都 为 传递 给 数据 库 的 代码 提供 一 种 特殊 类 型 ， 这 是 因为 代码 实际 上 可 
以 看 成 是 一 个 字符 串 和 一 个 作用 域 的 组 合 。 作 用 域 无 非 就 是 一 个 保存 着 变量 名 和 值 映射 
关系 的 文档 。 当 JavaScript 函数 执行 的 时 候 ， 这 种 映射 就 构成 了 函数 的 局 部 作用 域 。 


shell 没有 含有 作用 域 的 代码 类 型 ， 只 能 对 其 使 用 字符 申 或 者 JavaScript 函数 ， 
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7.5 数据 库 引 用 


可 能 MongoDB 最 鲜 为 人 知 的 功能 就 是 数据 库 引 用 了 ， 也 叫做 DBRef。DBRef 就 像 
URL， 唯 一 确定 一 个 到 文档 的 引用 。 它 是 动 加 载 文档 的 方式 正如 网 站 中 URL 通过 链 
接 自动 加 载 Web 页 面 一 样 。 z 


7.5.1 什么 是 DBRef 


DBRef 是 个 内 藤 文 档 ， 就 像 MongoDB 中 的 其 他 内 嵌 文 档 一 样 。 但 是 DBRef 有 些 必 
选 键 。 下 面 是 个 简单 的 例子 : 


{"S$ref* ; collection, "$id" : id value)} 


DBRef 指向 一 个 集合 ， 还 有 一 个 id_value 用 来 在 集合 里 面 根据 " ia" 确定 唯一 的 
文档 。 这 两 条 信息 使 得 DBRef 能 唯一 标识 MongoDB 数据 库 内 的 任何 一 个 文档 。 老 
是 想 引用 另 一 个 数据 库 中 的 文档 ，DBRef 中 有 个 可 选 键 "sdqb"， 用 这 个 就 可 以 了 : 


{"$ref" : collection, "$id" : id value, "$db" : database} 


DBRef 中 的 键 的 顺序 不 能 改变 。 第 一 个 必须 是 "$ref"， 接 着 是 "$ia"， 
， 然后 是 〈 可 选 的 ) "$ab"，。 





7.5.2 ”示例 模式 
来 看 一 个 使 用 DBRef 跨 和 集合 引用 文档 的 例子 。 本 例 中 含有 两 个 集合 ，users 和 notes。 
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用 户 (user) 可 以 创建 笔记 (note)， 笔 记 可 以 引用 用 户 或 者 别 的 笔记 。 现 在 有 一 些 用 户 文 
档 ， 每 一 个 都 有 了 唯一 的 用 户 名 作为 其 ' Td"s 以 及 一 个 独立 形式 的 ， display Damen: 
{"_id" : "mike", "display name" : "Mike D")} 
{"_ id" : "kristina", "display name" : "Kristina C"} 
notes 集合 稍微 复杂 一 些 。 每 个 笔记 都 含有 一 个 唯一 的 "iq"。 正 常情 况 下 ， 这 个 
" id" 很 可 能 是 个 ObjectID, 但 是 这 里 用 整数 ， 是 为 了 让 例子 人 简明， 突出 重点 。notes 
还 有 一 个 "author"， 阁 干 "text"， 以 及 一 个 可 选 的 "references" 指 同 其 他 笔记 或 者 
用 户 : 


lL : 5, "author™ : ‘mike', ‘text’ : "MongoDB is fun!"} 

{"_id" : 20, "author’ : "kristina", "text" : "... and DBRefs are easy, too", 

"references": [{'"S$ref" : "users", "$id* : "mike"}, {"S$ref" : "notes", 
“sid” : 5}]} 


第 二 个 笔记 包含 一 些 对 其 他 文档 的 引用 ， 每 一 条 都 作为 一 个 DBRef 存储 。 应 用 层 的 
程序 会 利用 这 些 DBRef 得 到 用 户 “Mike” 和 笔记 “MongoDB is fun!” 这 两 个 文档 ， 
而 它们 都 是 与 Kristina 的 笔记 关联 的 。 去 引用 是 很 容易 实现 的 。"$ref' 的 值 就 是 要 
查询 的 集合 ， 然 后 使 用 "$ia" 键 的 值 ， 获 得 " id" 的 值 : 

> Var note = db.notes.findone({" ia : 20}); 

> note.references .forEach(Efunction(ref) { 

. Drintjson(db [ref.S$ref] .finaone({("” ia" : ref.s$id})); 
{ "ia : "mike', "display name" : "Mike D" } 
{ ”id : 5, "author”" : "mike", "text* : "MongoDB is fun!" } 


7.5.3 ”了 驱动 对 DBRef 的 支持 


令 人 费解 的 是 不 是 所 有 驱动 程序 都 将 DBRef 作为 普通 的 内 网 文档 。 一 些 驱 动 程序 为 
DBRef 提供 了 特殊 的 类 型 ， 这 样 就 会 和 普通 文档 自动 相互 转换 。 这 主要 是 为 了 开发 
者 提供 便利 ， 因 为 这 样 可 以 忽略 少量 细节 。 例 如 ， 使 用 PyMongo 中 的 DBRef 类 型 
可 以 像 下 面 这 样 表示 上 面 的 例子 : z 


>>> note = {" id"*: 20, "author": "kristina", 
text'": *... and DBRefs are eaBy, too!", 
"references": [DBRef ("users'", "mike"), DBRef ("notes", 5)]} 


当 保 存 时 ，DBRef 实例 会 自动 被 转换 成 等 价 的 内 和 髓 文档 。 当 作为 查询 结果 返回 时 ， 
逆 操 作 也 会 自动 进行 ， 就 又 得 到 了 DBRef 的 实例 。 


一 些 驱 动 程序 还 添加 了 别 的 辅助 工具 来 操作 DBRef， 比 如 处 理 去 引用 的 方法 ， 甚 至 
提供 当 返 回 结果 包含 引用 时 自动 去 引用 的 机 制 。 这 些 辅 助 功能 随 驱 动 程序 的 不 同 而 
变化 ， 要 想 知道 最 新 的 信息 ， 需 要 参考 具体 驱动 程序 的 文档 。 
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7.5.4 ”什么 时 候 该 使 用 DBRef 呢 


在 MongoDB 中 表示 这 种 对 其 他 文档 的 引用 关系 ， 并 不 是 非 DBRef 不 可 ， 事实 上 ， 
即便 前 面 的 例子 也 使 用 了 些 不 同 的 机 制 做 引用 : 每 个 笔记 的 nauthor" 键 仅 存储 
了 author 文档 的 "ia" 键 。 没 有 必要 使 用 DBRef， 因 为 已 经 知道 每 个 author 就 是 
users 集合 里 面 的 一 个 文档 。 这 种 类 型 的 引用 以 前 也 出 现 过 ; 在 GridFS 的 块 文档 中 
"files idn 键 仅仅 就 是 对 文件 文档 ia" 的 引用 。 知 道 这 一 点 ， 每 次 要 保存 引用 的 
时 候 就 得 做 抉择 了 : 用 DBRef 呢 ， 还 是 只 存储 " ia" 呢 ? 


保存 "_id" 相当 不 错 ， 因 为 会 更 加 紧 资 ， 对 开发 者 而 言 也 更 轻 量 。 但 另 一 方面 ， 
DBRef 能 够 引用 任意 集合 (其 至 任意 数据 库 ) 的 文档 ， 开 发 者 不 必 知 道 和 记 住 被 引 
用 的 文档 在 哪些 集合 里 面 。 驱 动 程序 和 一 些 工 具 对 DBRef 提供 些 额 外 的 功能 (比如 
自动 去 引用 ) ， 而 且 服 务 器 端 在 日 后 也 可 能 会 有 更 高 级 的 支持 。 


总 之 ， 存 储 一 些 对 不 同 集合 的 文档 的 引用 时 ， 最 好 使 用 DBRef， 就 像 前 面 的 例子 。 
或 者 想 使 用 驱动 程序 或 者 工具 中 DBRef 特有 的 功能 ， 只 能 用 DBRef 了 。 否 则 ， 最 
好 存储 " ia" 作为 引用 来 使 用 ， 因 为 这 样 更 精简 ， 也 更 容易 操作 。 
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管理 MongoDB 还 算是 轻松 的 。 无 论 简 单 的 备份 还 是 做 带 有 复制 的 多 节点 系统 ， 都 
有 快捷 的 方法 。 这 也 体现 了 MongoDB 的 设计 理念 : 尽 可 能 简化 系统 操作 。. 系统 会 
尽量 目 动 完成 各 种 配置 ， 而 不 是 让 用 户 和 管理 员 做 这 做 那 。 即 便 如 此 ， 还 是 有 少量 
管理 任务 需要 手工 干预 。 


本 章 从 开发 者 的 视角 切换 到 管理 员 的 视角 ， 看 看 MongoDB 如 何 运 维 。 你 可 能 在 一 
个 小 型 团队 中 负责 开发 和 运 维 ， 或 者 你 是 一 个 DBA 想 研究 如 何 使 用 MongoDB， 那 
么 本 章 恰 好 适合 你 阅读 。 

本 章 主要 内 容 如 下 。 

。 MongoDB 就 是 一 个 普通 的 命令 行程 序 ， 用 mongod 调用 。 

。 MongoDB 提供 了 内 置 的 管理 接口 和 监控 功能 ， 易 于 与 第 三 方 监 控 包 集成 。 

。 MongoDB 支持 基本 的 、 数 据 库 级 别 的 用 户 认 证 ， 包 括 只 读 用 户 ， 以 及 独立 的 管理 


员 权 限 。 
。 有 多 种 方式 备份 MongoDB ， 主 要 取决 于 实际 的 情况 该 用 哪 种 。 


8.1 局 动 和 停止 MongoDB 


在 第 2 章 中 ， 已 经 介绍 了 启动 MongoDB 的 基本 方式 。 这 里 会 更 加 细致 地 介绍 管理 
员 在 生产 环境 中 部 署 Mongo 的 要 点 。 


8.1.1 从 命令 行 启动 
执行 mongod， 启 动 MongoDB 服务 器 。mongod 有 很 多 可 配置 的 启动 选项 : 在 命令 
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J 了 运行 mongod --help 可 以 查看 所 有 选项 。 一 些 主要 选项 如 下 。 


*。 --dbpath 

指定 数据 目录 ; 默认 值 是 /data/db/ (Windows 下 是 C:\data\db\)。 每 个 mongod 
进程 都 需要 独立 的 数据 目录 ， 所 以 要 是 有 3 个 mongod 实例 ， 必 须要 有 3 个 独 
立 的 数据 目录 。 当 mongod 启动 上 时， 会 在 数据 目录 中 创建 mongod.lock 文件 ， 
这 个 文件 用 于 防止 其 他 mongoa 进程 使 用 该 数据 目录 。 如 果 使 用 同一 个 数据 目 
录 局 动 另 一 个 MongoDB 服务 器 ， 则 会 报错 ; 


"Unable to acquire lock for lockfilepath: /data/db/mongod.lock." 


==port 

指定 服务 器 监听 的 端口 号 。 默 认 端 口 是 27017， 是 个 其 他 进程 不 怎么 用 的 端口 
(除了 其 他 mongod 进程 )。 要 是 运行 多 个 mongod 进程 ， 则 要 给 每 个 指定 不 同 
的 咽 口 号 。 如 果 启 动 mongod 时 端口 被 占用 ， 则 报错 ; 


"Address already in use for socket: 0.0.0.0:27017" 


。 --fork 
以 守护 进程 的 方式 运行 MongoDB， 创 建 服务 器 进程 。 


。 -~-logpath : 

指定 日 志 输 出 路 径 ， 而 不 是 输出 到 命令 行 。 如 果 对 文件 夹 有 写 权 限 的 话 ， 系 统 
会 在 文件 不 存在 时 创建 它 。 它 会 将 已 有 文件 覆盖 掉 ， 清 除 所 有 原来 的 日 志 记 录 。 
如 果 想 保留 原来 的 日 志 ， 还 需要 使 用 --logappend 选项 。 


。 --config 


指定 配置 文件 ， 加 载 命 令 行 未 指定 的 各 种 选项 。 详 见 8.1.2 订 。 


现在 启动 MongoDB 服务 器 ， 让 其 作为 守护 进程 监听 $5$86 号 端口 ， 并 将 所 有 输出 记 
录 到 mongodb.log: 


$ ./mongod --port 5586 -~fork --logpath mongoab .1og 
forked process: 45082 
all output going to: mongodb.1og 


当初 次 安装 并 启动 MongoDB 时 ， 最 好 看 看 日 志 。 这 是 人 们 经 肖 忽 视 的 一 点 ， 尤 其 
是 当 MongoDB 使 用 开机 启动 脚本 启动 的 时 候 。 但 是 日 志 经 常会 有 些 重要 的 警告 信 


虑 3 


-EE 上 
已 


能 够 帮助 避免 发 生 一 些 错误 。 要 是 启动 MongoDB 时 没有 任何 警告 ， 则 万 事 大 


。 不 过 实际 情况 下 你 可 能 看 到 下 面 这 些 信 息 : 


$ ./mongod 
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Sat Apr 24 11:53:49 Mongo DB : starting : pid = 18417 DezE 27017 _”* 
dbpath = /data/db/, master = 0 slave = 0 32-bit : 
二 南 二 机 
WARNING: This is development version of MongoDB. 
Not recommended for production. 
击 击 肖 击 


** NOTE: When using MongoDB 32 bit, you are limited to about 


克 痪 2 gigabytes of data see 
讽 宙 http://blog.mongodb.org/post/137788967/32-bit-limitations 
击 富 for more 


Sat Apr 24 11:53:49 db version vl.5.1-pre-, pdfile version 4.5 
Sat Apr 24 11:53:49 git version: f86d93fd949777d5fbe00bf9784ec0947d68e75 


Sat Apr 24 11:53:49 BYS info: Linux Ubuntu 2.6.31-15-generic ... 
Sat Apr 24 11:53:49 waiting for connections on port 27017 
Sat Apr 24 11:53:49 web admin interface listening on port 28017 


这 里 运行 的 MongoDB 是 个 开发 版 ， 要 是 用 稳定 版 就 不 会 有 第 一 个 警告 了 。 第 二 个 
警告 是 因为 用 的 是 32 位 的 MongoDB。 在 32 位 下 ，MongoDB 只 能 处 理 2 GB 的 数 
据 ， 这 是 因为 MongoDB 使 用 内 存 上 映射 文件 存储 引擎 (附录 CC 介绍 了 MongoDB 存 
储 引 擎 的 相关 内 容 )。 要 是 在 64 位 机 器 上 使 用 稳定 版 ， 就 不 会 有 这 些 警 告 了 ， 但 最 
好 要 和 弄 明白 MongoDB 日 志 的 原理 并 养 成 看 日 志 的 习惯 。 


日 志 的 这 部 分 开头 即便 重启 也 没什么 变化 ， 所 以 如 果 明 白 了 其 中 的 含义 以 后 ， 在 开 
机 脚本 中 启动 MongoDB 可 以 放心 地 忽略 这 部 分 。 然 而 ， 最 好 要 在 每 次 安装 、 升 级 ， 
宕 机 恢复 后 再 次 确认 一 下 MongoDB 和 系统 都 运转 良好 。 


8.1.2 配置 文件 

MongoDB 支持 从 文件 获取 配置 信息 。 当 需要 的 配置 非常 多 或 者 要 目 动 化 MongoDB 
的 启动 时 就 会 用 到 这 个 。 指 定 配置 文件 可 以 用 -f 或 者 --config 选项 。 例 如 ， 运 行 
mongod --config ~/.mongodb.conf 就 会 使 用 “/ .mongodb .conf 作为 配置 文件 。 


配置 文件 和 命令 行 的 功能 是 完全 一 样 的。 下 面 就 是 一 个 配置 文件 的 例子 : 
# Start MongoDB as a daemon on port 5586 


port = 5586 
fork = true # daemonize itl 


logpath = mongodb. log 


这 个 配置 文件 指定 的 选项 和 我 们 之 前 使 用 常规 的 命令 行 参数 时 所 使 用 的 相同 。 它 还 
体现 了 配置 文件 的 一 些 特 后 。 
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。 以 # 开 头 的 行 是 注释 。 
。 指定 选项 的 语法 就 是 这 种 “选项 = 值 ” 的 形式 ， 其 中 选项 是 区 分 大 小 写 的 。 
。 命令 行 中 那些 如 - -fork 的 开关 选项 ， 其 值 要 设 为 true。 


8.1.3 停止 MongoDB 
让 MongoDB 稳妥 地 停 下 来 和 启动 它 同样 重要 。 有 很 多 途径 可 以 有 效 地 做 到 这 点 。 


最 基本 的 方法 就 是 同 MongoDB 服务 器 发 送 一 个 SIGINT 或 者 SIGTERM 信和 号。 如 
果 服 务 器 是 作为 前 台 进 程 运行 在 终端 的 ， 就 直接 按 Ctrl-C。 否 则 ， 就 用 kill 这 种 
命令 发 出 信号 。 如 果 mongod 的 PID 是 10014， 就 可 以 kill -2 10014 (SIGINT) 
或 者 kill 10014 (SIGTERM )。 


3 mongod 收 到 SIGINT 或 者 SIGTERM 时 ， 会 稳妥 退出 。 也 就 是 说 会 等 到 当前 运 
行 的 操作 或 者 文件 预 分 配 完成 (需要 一 些 时 间 )， 关 闭 所 有 打开 的 连接 ， 将 缓存 的 数 
据 刷新 到 磁盘 ， 最 后 停止。 


千 万 不 要 向 运行 中 的 MongoDB 发 送 SIGKILL (ki11_9)， 这 样 会 导致 数 
据 库 直接 关闭 ， 上 面 讲 到 的 步骤 都 将 被 忽略 ， 这 会 使 数据 文件 损毁 。 要 是 
真 的 发 生 了 不 幸 ， 一 定 要 在 启动 备份 之 前 修复 数据 库 ”( 详 见 8.4.5 节 )。 
另 一 种 稳妥 的 方式 就 是 使 用 shutdown 命令 ， {"'shutdown" : 1}。 这 是 管理 命 
令 ， 要 在 admin 数据 库 下 使 用 。shell 提供 了 辅助 函数 ， 来 简化 这 一 过 程 : 


> USe admin 

switched to db admin 

> db.shutdownServer(); 
Server should be down... 


8.2 监控 


作为 MongoDB 管理 员 ， 很 重要 的 工作 就 是 监控 系统 的 状态 和 性 能 。 好 在 MongoDB 
有 很 多 功能 ， 使 得 监控 很 容易 。 


8.2.1 使 用 管理 接口 


默认 情况 下 ， 启 动 mongod 时 还 会 局 动 一 个 (非常 ) 基本 的 HTTP 服务 器 ， 该 服务 
器 监听 的 端口 号 比 主 服务 的 端口 号 大 1000。 这 个 服务 器 提供 了 HTTP 接口 ， 可 以 查 
看 MongoDB 的 一 些 基 本 信息 。 这 些 呈 现 的 信息 也 能 通过 shell 来 查看 ， 不 过 HTTP 
接口 提供 的 信息 更 加 易 读 。 


译注 1: 否则 下 次 将 无 法 正常 启动 。 
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启动 服务 器 ， 然 后 在 浏览 器 里 查看 http://localhost:28017， 就 能 看 见 管理 接口 。( 如 果 用 
--port 指定 了 端口 ， 则 要 用 比 它 大 1000 的 端口 号 )。 你 会 看 到 如 图 8-1 所 示 的 页 面 。 


mongod morton.local 
List al commands | Replica set status 


Commande: anasertTtnfo buildIinfo curgorinfo featuras iMapter Sarverstatus kop 


RPTP admin poxt:24017 

db version vi.5.3-pre~-, pdfila varsion 4.5 

git bash: ac3c06399009394edc87810btf1efebabb5000e3 

ays intfo: Darwin morton-Iocal 10.3.0 Darwin Karnel Ver3sion 10,3.0: Fri Fob 26 11:58:09 PST 2010; root:xn0-1504,.3.12~1/REL 
Uptime: 2464 seconds 

assertions: 

a Oe RE 

Silo Oo net me aoeheyne A ee 0 

二 上 : 


snapahotthread i0 


clientcursormonid 


7 CO NC om ee 
websvr i0 : : i : 


time to get readiock: Oms 
存 databasen: 1 


replication: 

master: 站 

Hlave: 0 
initialSyncCcompleted: 1 


en {occurences jpercent of elapsed) 
oe 





8-1; 管理 接口 


可 以 看 到 断言 、 锁 、 索 引 和 复制 等 相关 信息 。 还 有 些 更 加 常见 的 信息 ， 如 日 志 前 导 、 
数据 库 命令 列表 。 


要 想 利用 好 管理 接口 比如， 访问 命令 列表 )， 需 要 用 --rest 选项 开启 REST 支 
持 。 也 可 以 在 启动 mongod 时 使 用 --nohttpinterface 关闭 管理 接口 。 


不 要 用 驱动 程序 连接 HTTP 接口 ， 也 不 要 通过 HTTP 连接 本 机 驱动 端口 。 
驱动 端口 只 能 处 理 本 机 MongoDB 传输 协议 ， 不 能 处 理 HTTP 请 求 。 例 如 ， 
如 果 在 浏览 器 中 查看 http://localhost:27017， 会 看 到 如 下 提示 : 





You are trying to access MongoDB on the native driver port. 
For http diagnostic access, add 1000 to the port number 


同样 ， 也 不 能 用 本 机 MongoDB 传输 协议 去 访问 管理 接口 的 端口 。 
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8.2.2 serverStatus 


要 获取 运行 中 的 MongoDB 服务 器 统计 信息 ， 最 基 术 工具 就 是 serverstatus 合 
令 ， 输出 如 下 所 示 (不 同 平台 不 同 版 本 的 键 会 有 差异 ) ， 


> db.runCommand ({"serverstatus" : 1}) 
( 
"version™ ; 1L.5.3nm， 
"uptime" : 166, 
rlocalTime" : "Thu Jun 10 2010 15:47:40 GMT-0400 (EDT})", 
"globalLock" : { 
HtotalTime" : 165984675, 
rlockTime" ; 91471425, 
"rratio™ ; 0.5S51083556358441 


}, 

mem' : | 
"pits" : 64, 
"resident" : 101, 
"virtual™" : 2824, 
"supported" : true, 
"mapped" : 336 

} ， 


"connections" : | 
Hourrent™ : 1#&1, 
"available" : 19859 
i 
"extra info" : | 
"note" : "fields vary by platform" 


}， 
"inaexCounteren : { 
"btree™ : { 
accesses :| 1563, 
"hnits" : 1563, 
"misses" : 0, 
Tresets" : 0， 
"missRatio" : 0 
} 
} 


upackgroundFlushing" : |{ 
"flushes" : 2, 
"total ms" : 44, 

average me" ; 22, 
"lagt mae" : 36， 
"last finished" : "Thu Jun 10 2010 15:46:54 GMT-0400 (EDT)}" 

}, 

"opcounters" : { 
"rinsert" : 38195, 
"query" : 8874, 
"update" : 4058, 
"delete" : 389, 
"getmore" : 888, 
"oommand" : 17731 

}， 


ragsgerte" ; { 
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regular" : 0, 


Hwarning" : 0， 
"msg" : 0, 
HuSsSer : 5054, 
"rollovers” : 0 
Fs 
nok"” : true 


原始 的 统计 信息 同样 可 以 由 HTTP 接口 以 JSON 的 形式 得 到 ， 位 置 在 
Wa /status (http://localhost:28017/_status)。 不 但 包括 serverstatus 输出 ， 
还 有 其 他 一 些 有 用 命令 的 输出 。 详 见 8.2.1 布 。 


serverStatus 呈现 了 MongoDB 内 部 的 详细 信息 。 比 如 当前 服务 器 版 本 、 运 行 时 
间 (以 秒 计 )、 当 前 连接 数 。 有 些 信息 还 需要 解释 一 下 。 


"globalLock" 的 值 表示 全 局 写 入 锁 占 用 了 服务 器 多 少时 间 (以 微 秒 计 )。rmem' 包 
含 服 务 器 内 存 映 射 了 多 少数 据 ， 服 务 器 进程 的 虚拟 内 存 和 常 驻 内 存 的 占用 情况 (单位 
是 MB)。"indexCounters" 表示 B 树 在 磁盘 检索 ("misses") 和 内 存 检 索 ("hits") 
的 次 数 。 如 果 这 个 比值 开始 上 升 就 要 考虑 添加 内 存 了， 否则 系统 性 能 就 会 受到 影响 。 
"backgroudFlushing' 表示 后 人 台 做 了 多 少 次 sync 以 及 用 了 多 少时 间 。* opcounters" 文 
档 非 常 重要 ， 包 含 了 每 种 主要 操作 的 次 数 。 最 后 ，"asserts" 统计 了 断言 的 次 数 。 


serverstatus 结果 中 的 所 有 计数 都 是 在 服务 絮 启 动 时 开始 计算 的 ， 如 果 过 大 就 会 复 
位 。 当 发 生 复位 时 ， 所 有 计数 器 都 复位 ， nasserts" 中 的 "rollovers" 值 会 增加 。 


8.2.3 mongostat 


sezVvezStatus 虽然 强大 ， 但 对 监控 服务 右 来 说 却 不 怎么 易 用 。 还 好 ，MongoDB 
还 提供 了 mengostat， 可 以 便捷 地 查看 serverstatus 的 结果 。 


mongostat 输出 一 些 serverstatus 提供 的 重要 信息 。 它 会 每 秒 钟 输出 新 的 一 
行 ， 比 之 前 看 到 的 静态 计数 实时 性 更 好 。 它 输出 多 个 列 ， 分 别 是 inserts/s、 
commands/s、vsize 和 % locked,， 与 serverStatus 的 数据 相对 应 。 


8.2.4 . 第 三 方 插件 


绝 大 多 数 管理 员 可 能 已 经 使 用 监控 系统 跟踪 服务 器 的 运行 情况 。serverstatus 和 
/_status URL 的 出 现 使 得 编写 MongoDB 的 监控 揪 件 非常 容易 。 写 作 本 书 时 ， 好 多 监 
控 系 统 都 有 了 MongoDB 插件 ， 例 如 Nagios、Munin、Ganglia、Cacti。 登 录 up // 
dochub.mongodb.org/core/monitoring 查看 与 监控 工具 有 关 的 文档 。 


uu 
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8.3 ”安全 和 认证 


系统 管理 员 的 一 项 重要 工作 就 是 确保 系统 的 安全 。 使 MongoDB 安全 的 最 好 方法 就 
是 在 一 个 可 信 的 环境 中 运行 它 ， 保 证 只 有 可 信和 的 机 器 才能 访问 它 。MongoDB 支持 
对 单个 连接 的 认证 ， 即 便 这 个 认证 的 权限 模式 很 简陋 。 


8.3.1 认证 的 基础 知识 

每 个 MongoDB 实例 中 的 数据 库 都 可 以 有 许多 用 户 。 如 果 开 启 了 安全 性 检查 ， 则 
只 有 数据 库 认 证 用 户 才 能 执行 读 或 者 写 操作 。 在 认证 的 上 下 文中 ，MongoDB 会 将 
普通 的 数据 作为 admin 数据 库 处 理 。admin 数据 库 中 的 用 户 被 视 为 超级 用 户 ( 即 
管理 员 )。 在 认证 之 后 ， 管 理 员 可 以 读 写 所 有 数据 库 ， 执 行 特定 的 管理 命令 ， 如 


listDatabases 和 shutadaown。 


在 开局 安全 检查 之 前 ， 一 定 要 至 少 有 个 管理 员 账号 。 请 看 下 面 的 例子 ， 开 始 时 shell 
连接 的 是 没有 开局 安全 检查 的 服务 器 : 


> Use admin 
switched to db admin 
> db.addUser ("root', abcd’"),; 
{ 
USEer : root", 
"readOnly'" ; false, 
"pwd" : "la0flc3c3aald592f490a2addc5593837 
} 
> USe test 
Switched to db test 


> db.addUser ("test user", "efgh"),; 
{ 
"USer" : "test user", 
"readonly'" : false, 
npwd" : "6076b96fc3fe6002c810268702646eec" 
} 
> db.addUser{'"read only", "ijkl", true),; 
{ 
usSer" : "read only", 
"rreadOonly’" : true, 
"pwd" : "“f497e180c9dc0655292fee5893c162f£1" 


} 


上 面 添加 了 管理 员 root， 在 test 数据 库 添 加 了 两 个 普通 帐号 。 其 中 一 个 有 只 读 权 限 ， 
不 能 对 数据 库 写 入。 在 shell 中 创建 只 读 用 户 只 要 将 addUser 的 第 3 个 参数 设 为 
true 就 可 以 了 。 调 用 addUser 必须 有 相应 数据 库 的 写 权 限 。 这 里 可 以 对 所 有 数据 
库 调 用 addUser， 因 为 还 没有 开启 安全 检查 。 
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adduser 不 仅 能 添加 用 户 ， 它 还 能 修改 用 户口 令 或 者 只 读 状 基 国 所 以 设置 了 
用 户 名 、 新 密码 或 者 只 读 属 性 都 交 给 aaaUser 好 了 。 





现在 重启 服务 器 ， 这 次 加 入 - -auth 命令 行 选项 ， 开 启 安全 检查 。 之 后 ， 通 过 shell 
重新 连接 数据 库 ， 
和 ”也 虽 忆 七 对 号 七 


switched to db test 
> db.test.find(); 


error: { "$err" : "unauthorized for db [test]: lock type: -1 " } 
> db.auth("read only", "ijkl"); 
1 


=» db.test.find(}:; 
{ " id" : ObjectId("4bb007f53e8424663ea6848a"), "x" : 1 ) 
> db.test.insert({"x" : 2}); 
unauthorized 
db.auth("test user", "efgh"),; 


2 

1 

> db.test.insert({"x": 2})); 
> db.test.finad(); 
{ 

{ 
2 


" id" : ObjectIid("4bb007f53e8424663ea6848a"), "x" : 1 } 
" id" : ObjectId("4bb0088cbel7157d7b9cac07"), "x" : 2 } 
show dbs 
assert: assert failed : listDatabases failed:{ 
"assertion" : "unauthorized for db [admin] lock type: 1 
人 
"errmag" : "db assertion failure", 
"rok" : 0 
} 


> Use admin 

awitched to db admin 

> db.authl"root"™, "abcd"); 
1 

> Show dbs 

admin 

local 

test 


第 一 次 连接 时 ， 不 能 对 test 数据 库 执行 任何 操作 (无 论 读 写 )。 作 为 read_only 用 
户 认证 之 后 ， 就 能 查找 了 。 但 插入 数据 时 ， 由 于 权限 不 足 还 是 遇 到 了 问题 。test_ 
user 不 是 只 读 的 ， 所 以 能 正常 插入 数据 。 但 作为 一 个 非特 权 用 户 ，test_user 不 
能 使 用 show dbs 帮助 程序 来 列举 所 有 数据 库 。 最 后 作为 管理 员 root 认证 后 ， 就 能 
对 所 有 数据 库 执行 任意 操作 了 。 


8.3.2 ”认证 的 工作 原理 
数据 库 的 用 户 账号 以 文档 的 形式 存储 在 system.users 集合 里 面 。 文 档 的 结构 
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是 {ruser" : username, "readOnly": true, "pwd" : password hash}.。 


password hash 是 根据 用 户 名 和 密码 生成 的 散 列 。 


知道 了 用 户 信 息 是 如 何 存储 的 以 及 存储 位 置 后 ， 有 些 日 常 管理 任务 执行 起 来 就 很 轻 
松 了 。 例 如 ， 在 system.users 集合 中 删 掉 用 户 账号 文档 ， 就 可 以 删除 用 户 : 


> db.authil("test user’", "efgh"),; 

1 

> db.system.users.remove({"user" : 'test user"}); 
> db.auth("test user", "efgh"), 

0 


用 户 认证 时 ， 服 务 器 将 认证 和 连接 绑 定 来 跟踪 认证 。 也 就 是 说 如 果 驱 动 程序 或 是 工 
具 使 用 了 连接 池 或 是 因 故 障 切 换 到 另 一 个 节点 ， 所 有 认证 用 户 必须 对 每 个 新 连接 重 
新 认证 。 有 的 驱动 程序 能 够 将 这 步 透明 化 ， 但 要 是 没有 ， 就 得 手动 完成 。 真 是 这 样 
的 话 ， 或 许 应 该 不 用 - -auth (通过 将 MongoDB 部 署 到 可 信 环 境 中 然后 在 客户 端 处 
理 认证 )。 


8.3.3 ”其 他 安全 考虑 

除了 认证 还 有 许多 选项 值得 考虑 ， 来 锁定 MongoDB 实例 。 首 先 即便 用 了 认证 ， 
MongoDB 传输 协议 也 是 不 加 密 的 。 如 果 需 要 加 密 ， 可 以 用 SSH 隧道 或 者 类 似 的 技 
术 做 客户 端 和 服务 器 之 间 的 加 密 。 

这 里 建议 将 MongoDB 服务 妖 布 置 在 防火 场 后 或 者 布置 人 在 只 有 应 用 服务 器 能 访问 的 
_ 网络 中 。 但 要 是 MongoDB 必须 能 被 外 面 访问 到 的 话 ， 建 议 使 用 - -binaip 选项 ， 
可 以 指定 mongod 绑 定 到 的 本 地 IP 地 址 。 例 如 ， 只 能 从 本 机 应 用 服务 器 访问 ， 可 以 
运行 "mongod --bindip localhost"。 

8.2.1 节 已 经 讲 过 ， 上 默认 情况 下 MongoDB 会 开启 一 个 简单 的 HTTP 服务 器 ， 便 
于 查看 运行 、 锁 、 复 制 等 方面 的 信息 。 要 是 不 想 公 开 这 些 信 息 ， 就 应 该 通过 
--nohttpinter-face 将 管理 接口 关闭 。 


最 后 ， 还 可 以 用 - -noscripting 完全 禁止 服务 端 JavaScript 的 执行 。 


8.4 备份 和 修复 


做 备份 是 管理 任何 数据 存储 系统 的 一 项 非常 重要 的 任务 。 恰 当地 备份 往往 很 难 ， 搞 
不 好 会 弄 巧 成 揣 ， 还 不 如 不 备份 呢 。 还 好 ，MongoDB 提供 了 一 些 选 项 让 这 个 过 程 
不 再 困难 重重 。 
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8.4.1 数据 文件 备份 


MongoDB 将 所 有 数据 都 存放 在 数据 目录 下 。 默 认 目 录 是 /data/db/ (Windows 下 是 
C:\data\db\) 。 启 动 MongoDB 的 时 候 可 以 用 - -abpath 指定 数据 目录 。 不 论 数据 目 
录 在 哪里 ， 它 都 存放 着 MongoDB 的 所 有 数据 。 也 就 是 说 ， 要 想 备份 MongoDB ， 只 
要 简单 创建 数据 目录 中 所 有 文件 的 副本 就 可 以 了 。 


创建 数据 目 孙 的 副本 并 不 安全 。 这 样 的 备份 很 可 能 已 经 破损 了 ， 需 要 修复 


-3 除非 服务 器 做 了 完整 的 fsync， 还 不 允许 写 人 ， 否 则 在 运行 MongoDB 时 
( 详 见 8.4.5 节 ) 。 


在 运行 MongoDB 时 复制 数据 目 永 不 太 安 全 ， 所 以 就 得 先 把 服务 器 关 了 ， 再 复制 数 
据 目 录 。 假 设 服务 器 安全 关闭 了 【〈 详 见 8.1 节 )， 数 据 库 目 录 中 就 是 关闭 那 一 刻 数 据 
的 快照 。 在 服务 器 重新 启动 之 前 ， 可 以 复制 目录 作为 备份 。 


虽然 关 停 服务 器 再 复制 数据 目录 做 备份 很 有 效 ， 也 很 安全 ， 但 还 是 不 太 理想 。 本 章 
剩 下 的 部 分 会 介绍 不 需要 停机 的 备份 方式 。 


8.4.2 mongodump 和 mongorestore 


mongodump 就 是 一 种 能 在 运行 时 备份 的 方法 ，MongoDB 自 带 这 个 工具 。mongodump 
对 运行 的 MongoDB ie 然后 将 所 有 查 到 的 文档 写 人 磁盘 。 因 为 mongodump 是 一 
般 的 客户 端 ， 所 以 可 供 运行 的 MongoDB 使 用 ， 即 便 是 正在 处 理 其 他 请 求 或 是 执行 写 
入 也 没有 问题 。 


mongodump 使 用 普通 的 查询 机 制 ， 所 以 产生 的 备份 不 一 定 是 服务 器 数据 的 

实时 快照 。 服 务 器 在 备份 过 程 中 处 理 写 人 时 尤为 明显 。 
mongodump 还 带 来 个 问题 ， 备 份 时 的 查询 会 对 其 他 客户 端的 性 能 产生 不 利 
影响 。 





像 大 多 数 MongoDB 的 命令 行 工 具 一 样 ，mongodump 也 可 以 通过 运行 --help 选项 
查看 所 有 选项 


$ ./mongodump --help 


options: 
--help produce help message 
-Vv [ --verbose ] be more verbose {include multiple times for more 
verbosity e.g. -vvvvv) 
-h [ --host ] arg mongo host to connect to {left,right" for pairs) 
-Q [ --db ] arg database to use 
-C [ --collection ] arg collection to use {some commanaQs ) 
-uU [ --username ] arg usSername 
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-p [ --pasgword ] az password FT 
--dbpath arg directly access mongod data files in the given 
path, 
instead of connecting to aimongod instanee > needs 
to lock 七 he data directory, B80 Cannot be used if a 
mongod is currently accessing the same path 
--directoryperdb if dbpath specified, each db is in a separate 
directory 
-OO [ --out ] arg (l=sdump) output directory 


除了 mongodump，MongoDB 还 提供 了 从 备份 中 恢复 数据 的 工具 mongorestore。 
mongorestore 获取 mongodump 的 输出 结果 ， 并 将 备份 的 数据 插入 到 运行 的 MongoDB 
实例 中 。 下 面 的 例子 演示 了 从 数据 库 test 到 backup 目录 的 热 备份 ， 接 着 还 调用 了 
mongorestore: 


$ ./mongodump -d test -0o backup 
connected to: 127.0.0.1 


DATABASE: test to backup/test 
test.x to backup/test/x.bson 
1 objects 


$ ./mongorestore -d foo --drop backup/test/ 
connected to: 127.0.0.1 
backup/test/x.bson 
going into namespace [foo.xXx] 
dropping 
1 objects 
上 面 的 例子 中 ，-a 指定 了 要 恢复 的 数据 库 ， 这 里 是 foo。 这 个 选项 可 以 将 备份 恢复 
到 与 原来 不 同名 的 数据 库 中 。- -drop 代表 在 恢复 前 删除 集合 (车 存在 )。 否 则 ， 数 
据 就 会 与 现 有 集合 数据 合并 ， 可 能 会 覆盖 一 些 文档 。 再 强调 一 次 ， 要 获得 完整 的 选 
项 列表 ， 可 以 运行 mongorestore --help。 


8.4.3 fsync 和 锁 

虽然 用 mongodump 和 mongorestore 能 不 停机 备份 ， 但 是 我 们 却 失 去 了 获取 实时 数据 视 
图 的 能 力 。MongoDB 的 fsync 命令 能 在 MongoDB 运行 时 复制 数据 目录 还 不 会 损毁 数据 。 
fsync 命令 会 强制 服务 器 将 所 有 缓冲 区 写 人 磁盘 。 还 可 以 选择 上 锁 阻 止 对 数据 库 的 
进一步 写 人 ， 直 到 释放 销 为 止 。 写 入 锁 是 让 fsync 在 备份 时 发 挥 作用 的 关键 。 下 面 
的 例子 展示 了 如 何在 shell 中 操作 ， 强 制 执行 了 fsync 并 获得 了 写 人 锁 ; 


> Use admin 
switched toe db admin 
> db.runcommand({"fsyne" : 1, "lock" ; 1}); 


{ 
"info":'"'now locked against writes, use db.s$cmd.sys.unlock.findone() to 
unlock" 
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至 此 ， 数 据 目录 的 数据 就 是 一 致 的 ， 且 为 数据 的 实时 快照 。 因 为 上 了 写 入 锁 ， 可 以 
安全 地 将 数据 目录 副本 用 做 备份 。 要 是 数据 库 运行 在 有 快照 功能 的 文件 系统 上 时 ， 
比如 LVM' 或 者 EBS:， 这 个 就 很 有 用 了 ， 因 为 拍 个 数据 库 目录 快照 非常 之 快 。 


备份 好 了 ， 就 要 解 铀 : 


> Gb.$cmd.sys.unlock.findone{(); 

{ "ok" : 1, "info" : nunlock redqueBtedr } 
> db.currentop ( ) ; 

{ "inprog" : [ ] } 


运行 CurrentoOp 是 为 了 确保 已 经 解锁 了 o (初次 请 求解 锁 会 花 点 时 间 。) 


有 了 fsync 命令 ， 就 能 非常 灵活 地 备份 ， 不 用 停 掉 服务 器 ， 也 不 用 辆 牲 备份 的 实时 
特性 。 要 付出 的 代价 就 是 一 些 写 信 操作 被 暂时 阻塞 了 。 唯 一 不 耽误 读 写 还 能 保证 实 
时 快照 的 备份 方式 就 是 通过 从 服务 器 备份 。 


8.4.4 ”从属 备份 


虽然 上 面 说 的 几 种 方式 在 备份 数据 方面 已 经 很 灵活 了， 但 是 都 不 及 在 从 服务 器 上 备 
份 。 当 以 复制 的 方式 运行 MongoDB 时 ( 详 见 第 9 章 )， 前 面 提 到 的 备份 技术 就 不 仅 能 
用 在 主 服务 如 上 ， 也 可 以 用 在 从 服务 右上 ， 而 且 效 果 还 会 更 好 。 从 服务 器 的 数据 几 平 
与 主 服 务 器 同步 。 因 为 不 太 在 乎 从 属 服务 器 的 性 能 或 是 能 不 能 读 写 ， 于 是 就 能 随意 选 
择 上 面 的 3 种 备份 方式 : 关 停 、 转 储 和 恢复 工具 或 Esync 命令 。 在 从 服务 器 上 备份 是 
MongoDB 推荐 的 备份 方式 。 


8.4.5 ”修复 


做 备份 是 为 了 以 备 不 测 ， 比 如 停电 ， 其 至 大 象 间 入 数据 中 心 什么 的 ， 不 管 怎 样 数据 都 是 
安全 的 。 总 是 有 机 器 宕 掉 ， 又 恰巧 没有 备份 (或 者 没有 可 以 转移 故障 的 从 服务 器 ) 这 种 
倒霉 时 刻 。 要 契 停 电 或 者 软件 崩 兴 ， 恢 复 后 机 恰 的 磁盘 一 般 没 有 问题 。 但 MongoDB 的 
仓储 方式 不 能 保证 磁盘 上 的 数据 还 能 用 ， 因 为 可 能 有 损毁 〈 关 于 MongoDB 的 存储 引擎 
详 见 附录 C)。 科 好 ，MongoDB 内 置 的 修复 功能 会 试 着 恢复 损坏 的 数据 文件 。 


未 能 正常 停止 MongoDB 后 应 该 修复 数据 库 。 要 是 未 正常 停止 ， 下 次 启动 服务 器 备 
份 时 MongoDB 会 提示 : 


PE 
old lock file: /data/db/mongod.lock. probably means unclean shutdown 
recommend removing file and running --repair 


‘see: http://dochub.mongodb.org/core/repair for more information 
三 友 克 让 友 克 友 克 克 康 克 克 灾 


广 1: Linux 的 逻辑 卷 管理 器 。 
往 2， Elastic Block Store， 亚 马 进 提供 的 一 种 持久 存储 方案 。 
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修复 所 有 数据 库 最 简单 的 方式 就 是 加 上 --repair: mongod --repair 来 启动 服务 
器 。 修 复数 据 库 的 实际 过 程 实际 上 非常 简单 : 将 所 有 的 文档 导出 然后 马上 导入 ， 忽 
略 那些 无 效 的 文档 。 完 成 以 后 ， 会 重新 建立 索引 。 了 解 这 一 机 制 对 理解 修复 的 一 些 
属性 有 帮助 。 数 据 量 大 的 话 会 花 很 多 上 时间， 因为 所 有 数据 都 要 验证 ， 所 有 索引 都 要 
重建 。 修 复 后 可 能 会 比 修复 前 少 些 文档 ， 因 为 损毁 的 文档 都 被 丢弃 了 二 


修复 数据 库 还 能 起 到 压缩 数据 的 作用 。 闲 置 的 空间 (比如 删除 体积 较 大 的 
。 集合 ， 或 删除 大 量 文档 后 腾 出 的 空间 ) 在 修复 后 被 重新 回收 。 





修复 运行 中 的 服务 器 上 的 数据 库 ， 要 在 shell 中 用 repairDatabase。 使 用 下 列 方 
法 修复 一 下 test 数据 库 : 


> USe test 
switched to db test 
> db.repairDatabase ( ) 
{ "ok : 1 } 
要 是 不 通过 shell 而 是 通过 驱动 程序 ， 可 以 用 repairDatabase 来 完成 相同 的 事情 : 


{"repairDatabase" : 1)} 


修复 损毁 的 数据 是 不 得 已 时 的 最 后 一 招 。 尽 可 能 稳妥 地 停 掉 服 务 器 ， 利 用 复制 功能 
实现 故障 恢复 ， 经 常 做 备份 ， 这 些 才 是 最 有 效 的 管理 数据 的 手段 。 


译注 1，MongoDB 1.8 以 后 引入 了 日 志 系 统 ， 使 得 系统 恢复 时 间 大 大 缩短 。 
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复制 


MongoDB 管理 员 最 重要 的 工作 莫 过 于 确保 复制 设置 正确 ， 且 运转 良好 。 这 里 强烈 
推荐 在 生产 环境 中 使 用 MongoDB 的 复制 功能 ， 尤 其 是 现在 的 存储 引擎 还 不 支持 
单机 持久 性 ( 详 见 目 录 C)。 不 仅 可 以 用 复制 来 应 对 故障 切换 、 数 据 集 成 ， 还 可 以 
用 来 做 读 扩 展 、 热 备份 或 作为 离线 批 处 理 的 数据 源 。 本 章 会 介绍 复制 的 方方面面 。 


9.1 主 从 复制 


主 从 复制 是 MongoDB 最 常用 的 复制 方式 。 这 种 方式 非常 灵活 ， 可 用 于 备份 、 故 障 
恢复 、 读 扩展 等 〈 详 见 图 9-1 和 图 9-2) 。 





9-1， 搭配 一 个 从 节点 的 主 节点 
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9-2: 搭配 3 个 从 节点 的 主 节点 


最 基本 的 设置 方式 就 十 建立 一 个 主 届 尽 和 一 个 或 者 多 个 从 刷 扩 ， SATAS 
知道 主 布点 的 地 址 。 运 行 mongod --master 就 启动 了 主 服务 器 。 运 行 mongod 
--slave --source master address 则 启动 了 从 服务 器 ,其 中 master address 
就 是 上 面 主 市 挟 的 地 址 。 


生产 环境 下 会 有 多 台 服 务 器 的 ， 不 过 这 里 简化 一 下 就 在 同一 台 机 器 上 试验 了。 首先， 
给 主 市 点 建立 数据 目录 ， 并 瑚 定 端口 (10000) : 


$ mkdir -p ~/dbs/master 
$ ./mongod --dbpath ~/dbs/master --port 10000 --master 


接着 设置 从 节点 ， 记 着 要 选择 不 同 的 目录 和 端口 ， 并 且 用 --source 为 从 古 点 指明 主 
市 点 的 地 址 : 


$ mkdir -p ~/dbs/slave 
$ ./mongod --dbpath ~/dbs/slave --port 10001 --slave --source 
localhost:10000 


所 有 从 节点 都 从 主 节 点 复制 内 容 。 目 前 还 没有 能 够 从 从 节点 复制 的 机 制 (菊花 链 )， 
原因 就 是 从 节点 并 不 保存 自己 的 oplog (关于 oplog， 详 见 9.4 节 )。 


一 个 集群 中 有 多 少 个 从 节点 并 没有 明确 的 限制 ,但 是 上 千 个 从 市 后 对 单个 主机 后 发 
起 查询 也 会 让 其 吃不消 的 。 所 以 实际 中 ， 不 超过 12 个 从 布点 的 集群 就 可 以 运转 展 
好 了 。 


9.1.1 选项 

主 从 复制 有 些 有 用 的 选项 
。 --only 
在 从 节点 上 指定 只 复制 特定 某 个 数据 库 (默认 复制 所 有 数据 库 )。 
。 --Slavedelay 


用 在 从 节点 上 ， 当 应 用 主 节点 的 操作 时 增加 延 时 (单位 是 秒 )。 这 样 就 能 轻松 设 
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置 延 时 从 布点 了 ， 这 种 节点 对 用 户 无 意 中 删 除 重要 文档 或 者 插入 垃圾 数据 等 事故 
有 很 重要 的 防护 作用 。 这 些 不 良 操作 都 会 被 复制 到 所 有 从 节点 上 。 通 过 延缓 执行 
操作 ， 可 以 有 个 恢复 的 时 间 差 。 

* --fastsync 

以 主 市 点 的 数据 快照 为 基础 启动 从 市 点 。 如 果 数 据 目 录 一 开始 是 主 节点 的 数据 
快照 ， 从 市 把 用 这 个 选项 启动 要 比 做 完整 同步 快 很 多 。 : 


es  --autoresync 


如 有 霖 从 市 后 与 主 市 尽 不 同步 了 ， 则 自动 重新 邮 步 。( 详 见 9.4 市 ,) 


* --oplogSize 


主 市 点 oplog 的 大 小 (单位 是 MB)。( 详 见 9.4 节 。) 


9.1.2 添加 及 删除 源 z 
启动 从 市 点 时 可 以 用 --source 指定 主 节 点 ， 也 可 以 在 shell 中 配置 这 个 源 。 
假设 主 节 所 绑 定 了 localhost:27017。 局 动 从 节点 时 可 以 不 添加 源 ， 而 是 随后 向 
sources 集合 添加 主 节 点 信息 : 

$ ./mongod --slave --dbpath ~/dbs/slave --port 27018 


现在 可 以 在 shell 中 运行 如 下 命令 ， 将 localhost:27017 作为 源 添加 到 从 节点 上 : 


> use local 
> db.sources.insert ({"host" : "localhost:27017"}) 


看 看 从 属 市 点 的 日 志 ， 会 发 现 它 与 localhost:27017 同步 。 
在 sources 集合 中 插入 源 后 ， 如 果 立 刻 进行 查 询 就 能 查 到 插入 的 文档 : 


> db.sources.find'() 


人 
1_id" : ObjectId{("*4c1650c2d26b84cc1la31781f"), 
"host" : *localhost:27017" 


} 
当 完 成 同步 后 ， 该 文档 就 被 更 新 了 : 
> db.sources.find!() 


{ 


"_ id" : ObjectIid{("4c1650c2d26b84cc1la31781f"), 


"host" : "localhost:27017?, 
HSOULTCen : nmalinn ， 
"ngsyncedTo" : { 
tn : 1276530906000,， 
Lp : 1 
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}, 


"JocalLogTe" : | 
nt 0, 
nin : 器 
"dbsNextPass" : { 
test db" : trua 


} 
} 


假设 在 生产 环境 下 ， 想 更 改 从 节点 的 配置 ， 改 用 prod .example .com 为 源 ， 则 可 以 
用 insert 和 remove 来 完成 ， | 


> db.sources.insert({"host" : "prod.example.com:27017"}) 
> db.sources.remove(l{"host" : "localhost:27017"}) 


可 以 看 到 ，sources 集合 可 以 被 当做 普通 集合 进行 操作 ， 而 且 为 管理 从 节点 提供 了 
很 大 的 灵活 性 。 


要 是 切换 的 两 个 主 习 点 有 相同 的 集合 ，MongoDB 会 尝试 合并 ， 但 不 保证 能 
正确 合并 。 要 是 使 用 的 一 个 从 节点 对 应 多 个 不 同 的 主 节点 ， 最 好 在 主 节点 
上 使 用 不 同 的 命名 空间 。 


9.2 副本 集 


简单 地 说 ， 副 本 集 (Replica Set) 就 是 有 自动 故障 恢复 功能 的 主 从 集群 。 主 从 集群 和 副本 
集 最 为 明显 的 区 别 是 副本 集 没 有 固定 的 “ 主 市 后 ”: 整个 集群 会 选举 出 一 个 “ 主 节 点 ”， 
当 其 不 能 工作 时 则 变更 到 其 他 届 后 。 然 而 ， 二 者 看 上 去 非常 相似 副本 集 总 会 有 一 个 活 
跃 节 点 《primary) 和 一 个 或 多 个 备份 节点 (secondary)。 详 见 图 9-3 一 图 9-5。 


副本 集 最 美妙 的 地 方 就 是 所 有 东西 都 是 自动 化 的 。 首 先 ， 它 为 你 做 了 很 多 管理 工作 ， 
目 动 提升 备份 太后 成 为 活跃 市 后 ， 以 确保 运转 正常 。 其 次 ， 它 对 于 开发 者 而 言 ， 也 
很 多 用 : 仅 需 要 为 副本 集 指定 一 下 服务 器 ， 驱 动 程序 就 会 自动 找到 服务 器 ， 在 当前 
活跃 节点 死机 时 目 动 处 理 故 障 恢复 这 类 事情 。 





9-3: 包含 两 个 成 员 的 副本 集 
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图 9-5: 如 果 原来 的 活跃 节点 恢复 了 ， 它 会 成 为 新 的 活跃 节点 的 备份 节点 


9.2.1 初始 化 副本 集 
设置 副本 集 比 设置 主 从 集群 稍微 复杂 一 点 。 先 从 最 简单 的 例子 开始 ， 两 个 服务 器 。 


全， 


不 能 用 1ocalhost 地 址 作为 成 员 ， 所 以 得 找到 机 器 的 主机 名 。 在 *NIX 系 
统 中 ， 可 以 这 样 : 


$ cat /etc/hostname 
morton 


首先 ， 要 为 每 一 个 服务 器 创建 数据 目录 ， 选 择 端口 ， 


$ mkdir -p ~/dbs/nodel ~/dbs/node2 


在 启动 之 前 ， 还 得 做 个 重要 决定 : 给 副本 集 起 个 名 字 。 名 字 是 为 了 易于 与 别 的 副本 
集 区 分 ， 也 是 为 了 方便 地 将 整个 集合 视 为 一 个 整体 。 这 里 就 命名 为 "blort"。 


之 后 就 启动 服务 器 。 --replSset 是 个 设 接触 过 的 选项 ， 作用 是 让 服务 器 知晓 在 这 个 
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"blort" 副本 集中 还 有 别 的 同伴 ， 位 置 在 morton:10002 (还 设 启动 呢 ) : 


$ ./mongod --dbpath ~/dbs/nodel --port 10001 --replSet blort/morton:10002 
以 同样 的 方式 启动 另 一 台 : 


$ ./mongod --dbpath ~/dbs/node2 --port 10002 ~-replSet blort/ 
morton:10001 


如 采 想 添加 第 3 台 ， 下 面 两 种 方式 都 行 : 


$ ./mongod --GQbpath ~/dbs/node3 --port 10003 --replSet blort/ 

morton:10001 

$ ./mongod --dbpath ~/dbs/node3 --port 10003 --replSet blort/morton:10001, 
morton:10002 


副本 集 的 一 个 亮点 就 是 有 自 检测 功能 ， 在 其中 指定 单 台 服务 器 后 ，MongoDB 就 会 
自动 搜索 并 连接 其 余 的 节点 。 


启动 了 几 台 服务 器 之 后 ， 日 志 就 会 告诉 你 副本 集 没 有 进行 初始 化 。 因 为 还 差 最 后 一 
步 : 在 shell 中 初始 化 副本 集 。 


在 shell， 连 接 其 中 一 个 服务 器 (下面 的 例子 中 使 用 morton:10001)。 初 始 化 命令 
只 能 执行 一 次 : 


$ ./mongo morton:10001/admin 
MongoDB shell version: 1.5.3 
connecting to localhost:10001/admin 
type "help" for help 
> db.runCommand ({'"'replSetInitiate" : { 
。 9 Lan : "blort”, 
. "members" : [ 


"_ id" : 1, 


thost’” : "morton:1]10001" 


1 jid’»” : 2, 
rihost’” : "morton:10002" 


- } 
. 1}}) 
‘ 
info" : "Config now saved locally. Should come online in about a 


minute.', 
1OK9 : true 


} 
这 个 初始 化 文档 略 显 复杂 ， 但 一 点 点 来 看 还 是 可 以 理解 的 。 


i id’ 。 Hbhlort™ 


副本 集 的 名 字 。 
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"members" : [...] 
副本 集中 的 服务 器 列表 。 过 后 还 能 添加 。 每 个 服务 器 文档 至 少 有 两 个 键 。 
1 和 NN 


每 个 服务 器 的 唯一 ID。 
rhost" : hostname 


这 个 键 指 定 服务 器 主机 。 
现在 查看 日 志 看 看 哪 一 台 被 选 为 活跃 节点 。 
再 连接 一 下 别 的 机 器 ， 查 询 一 下 命名 空间 local.system.replset， 会 发 现 配置 会 在 服务 
器 间 相 互 传递 。 


撰写 本 书 时 ， 副 本 集 还 在 开发 中 ， 还 没有 进入 MongoDB 的 生产 版 本 。 因 
。 此 ， 这 里 的 信息 难免 会 有 变化 。 关 于 副本 集 最 新 的 文档 详 见 non wiki 
. (http://www. mongodb.org/display/DOCS/ReplicatSets ) 。 


9.2.2 副本 集中 的 节点 


任何 时 间 ， 集 群 只 有 一 个 活跃 节点 ， 其 他 的 都 为 备份 市 点 。 活 跃 节 点 实际 上 是 活跃 
服务 器 ， 这 里 的 不 同 是， 指定 的 活跃 市 扩 可 以 随时 间 而 改变 。 


有 几 种 不 同类 型 的 市 点 可 以 存在 于 副本 集中 。 





* standard 
这 种 就 是 常规 节点 ， 它 存储 一 份 完整 的 数据 副本 ， 参 与 选举 投票 ， 有 可 能 成 为 
活跃 节点 。 


sa passive 


存储 了 完整 的 数据 副本 ， 参 与 投票 ， 不 能 成 为 活跃 节点 。 


es arbiter 


仲裁 者 只 参与 投票 ， 不 接收 复制 的 数据 ， 也 不 能 成 为 活跃 节点 。 


标准 节点 和 被 动 节点 之 间 的 区 别 仅仅 就 是 数量 的 差别 ， 每 个 参与 节点 ( 非 仲 裁 者 ) 
有 个 优先 权 。 优 先 权 为 0 则 是 被 动 的 ， 不 能 成 为 活跃 节点 。 优 先 值 不 为 0， 则 按照 
由 大 到 小 选 出 活跃 节点 ， 优 先 值 一 样 的 话 则 看 谁 的 数据 比较 新 。 所 以 ， 要 是 有 两 个 
优先 值 为 1 和 一 个 优先 值 为 0.5 的 节点 ， 最 后 一 个 节点 只 有 在 前 两 个 节点 都 不 可 用 
的 时 候 才 能 成 为 活跃 节点 。 
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在 节点 配置 中 修改 priority 键 ， 来 配置 成 标准 节点 或 者 被 动 节点 。 


> mermbezrs .push ({ 


1 Qu 3， 
. "host* : "morton:10003", 
"rpriority” : 40 


mn 
默认 优先 级 为 1， 可 以 是 0 ~ 1 000 ( 含 )。 
"arbiteronly" 键 可 以 指定 仲裁 节点 。 


> members .push (1{ 


n id" : 4, 
ihost* : "morton:100047", 
rarbiteronly" : true 


... }); 
下 一 市 将 进一步 介绍 仲裁 市 点 。 


备份 广 挟 会 从 活跃 市 护 抽 取 oplog， 并 执行 操作 ， 就 像 活 跃 备 份 系统 中 的 备份 服 
务 器 一 样 。 活 跃 节 点 也 会 写 操作 到 目 己 的 本 地 oplog， 这 样 就 能 成 为 活跃 市 点 了 。 
oplog 中 的 操作 也 包括 严格 递增 的 序号 。 通 过 这 个 序号 来 判定 数据 的 时 效 性 。 


9.2.3 ”故障 切换 和 活跃 节点 选举 


如 果 活 跃 节 点 坏 了 ， 其 余 节 点 会 选 一 个 新 的 活跃 节点 出 来 。 选 举 过 程 可 以 由 任何 非 活 
跃 节点 发 起 。 新 的 活跃 节点 由 副本 集中 的 大 多 数 选 举 产生 。 仲 裁 节 点 也 会 参与 投票 ， 
避免 出 现 伪 局 (比如 ， 当 网 络 分 割 ， 参 与 节点 被 分 成 两 半 时 )。 新 的 活跃 节点 将 是 优 
先 级 最 高 的 节点 ， 优 先 级 相同 则 数据 较 新 的 节点 获胜 〈 详 见 图 9-6 一 图 9-8)。 





图 9-6: 副本 集 有 多 个 不 同 优先 级 的 服务 器 
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图 9-8: 优先 级 最 高 且 数 据 最 新 的 服务 器 成 为 活跃 节点 


活跃 市 扩 使 用 心跳 来 跟踪 集群 中 有 多 少 而 扩 对 其 可 见 。 如 果 不 够 半数 ,活跃 市 扩 会 目 
动 降 为 备份 世 氮 。 这 样 就 能 防止 活跃 节点 一 直 不 放权 ， 比 如 当 网 络 分 割 后 已 经 与 集群 
隔离 开 的 时 个。 


不 论 活 跃 世 所 何 时 变化 ， 新 活跃 万 点 的 数据 就 被 假定 为 系统 的 最 新 数据 。 对 其 他 市 点 
( 即 原来 的 活跃 而 点 ) 的 操作 都 会 回 滚 ， 即 便 是 之 前 的 活跃 节点 已 经 恢复 工作 了 。 为 了 完 
成 回 深 ， 所 有 而 点 连接 新 的 活跃 刷 点 后 要 重新 同步 。 这 些 市 点 会 查看 自己 的 oplog， 找 出 
其 中 活跃 节点 没有 执行 过 的 操作 ， 然 后 同 活跃 证 点 请 求 这 些 操 作 影 响 的 文档 的 最 新 副本 。 
正在 执行 重新 邮 步 的 布点 外 视 为 恢复 中 ， 在 完成 这 个 过 程 之 前 不 能 成 为 活跃 市 点 候选 者 。 


9.3 在 从 服务 器 上 执行 操作 


从 市 上 后 的 主要 作用 是 作为 故障 恢复 机 制 ， 以 防 主 布点 数据 丢失 或 者 停止 服务 。 但 是 
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还 有 些 别 的 用 法 。 从 节点 可 用 做 备份 的 数据 源 ( 详 见 第 8 音效 也 育 以 用 入" 属 襄 取 
性 能 ， 或 是 进行 数据 处 理 。 


9.3.1 读 扩 展 


用 MongoDB 扩展 读 取 的 一 种 方式 就 是 将 查询 放 在 从 节点 上 。 这 样 ， 主 节点 的 负载 
职 减 轻 了 。 一 般 说 来 ， 当 负载 是 读 取 密 集 型 时 这 是 非常 不 错 的 方案 。 要 是 写 人 密集 
型 ， 则 要 参见 第 10 章 ， 了 解 怎样 用 自动 分 片 来 进行 扩展 。 

局- 使 用 从 节点 来 扩展 MongoDB 的 读 取 有 个 要 点 ， 就 是 数据 复制 并 不 同步 


。 也 就 是 说 在 主 节点 插入 和 更 新 数据 后 ， 有 片刻 从 节点 的 数据 不 是 最 新 的 。 
… 在 考虑 用 查询 从 节点 完成 请 求 时 这 点 非常 重要 。 





扩展 读 取 本 身 很 简单 :还 像 往 种 一 样 设置 主 从 复制 ， 连 接 从 服务 器 处 理 请 求 。 唯 一 
的 技巧 就 是 有 个 特殊 的 查询 选项 ， 告 诉 从 服务 器 是 否 可 以 处 理 请 求 。( 默 认 是 不 可 以 
的 。) 这 个 选项 叫做 slaveokay， 所 有 的 MongoDB 驱动 程序 都 提供 了 一 种 机 制 来 
设置 它 。 有 些 驱 动 程序 还 提供 工具 使 得 将 请 求 分 布 到 从 节点 的 过 程 自动 化 ， 但 这 个 
过 程 随 驱 动 程序 的 不 同 而 不 同 。 


9.3.2 用 从 节点 做 数据 处 理 


从 节点 的 另外 一 个 用 途 就 是 作为 一 种 机 制 来 减轻 密集 型 处 理 的 负载 ， 或 作为 聚 
合 ， 避 免 影响 主 节 点 的 性 能 。 用 --master 参数 启动 一 个 普通 的 从 节点 。 同 时 使 用 
--slave 和 --master 有 点 矛盾 。 这 意味 着 如 果 能 对 从 刷 点 进行 写 人 、 像 往常 一 样 
查询 ， 就 把 它 作为 一 个 普通 的 MongoDB 主 节 点 好 了 。 从 节点 还 是 会 不 断 地 从 真正 
的 主 苛 氮 复 制 数据 。 这 样 ， 就 可 以 对 从 贡 所 执行 阻塞 操作 而 不 影 响 主 贡 氮 的 性 能 。 


用 这 种 技术 的 时 候 ， 一定 要 确保 不 能 对 正在 复制 主 刷 点 数据 的 从 布点 上 的 
: 数据 库 执行 写 和信。 从 市 扩 不 能 恢复 这 些 操作 ， 就 不 能 正确 地 映射 主 市 反 。 


从 节点 第 一 次 启动 时 也 不 能 有 正 被 复制 的 数据 库 。 要 是 有 的 话 ， 这 个 数据 
库 就 不 能 完成 同步 了 ， 只 能 更 新 新 的 操作 。 


9.4 工作 原理 


总 的 说 来 ，MongoDB 的 复制 至 少 需 要 两 个 服务 器 或 者 证 尽 。 其 中 一 个 是 主 市 尽 ， 人 负 
页 处 理 客户 端 请 求 ， 其 他 的 都 是 从 市 后， 人 负责 映射 主 市 后 的 数据 。 主 市 后 记录 在 其 上 
执行 的 所 有 操作 。 从 市 点 定期 轮 询 主 市 把 获 得 这 些 操作 ， 然 后 对 自己 的 数据 副本 执行 
这 些 操作 。 由 于 和 主 节 点 执行 了 相同 的 操作 ， 从 节点 就 能 保持 与 主 节点 的 数据 同步 。 
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9.4.1 oplog 


主 节点 的 操作 记录 称 为 oplog (operation log 的 简写 ) 。oplog 存储 在 一 个 特殊 的 数据 
库 中 ， 叫 做 local。oplog 就 在 其 中 的 oplog .$main 集合 里 面 。oplog 中 的 每 个 文档 
都 代表 主 节 点 上 执行 的 一 个 操作 。 文 档 包 含 的 键 如 下 。 

sts 


操作 的 时 间 惟 。 时 间 改 是 一 种 内 部 类 型 ， 用 于 眼 踪 操作 执行 的 时 间 。 由 4 字 节 
的 时 间 咒 和 4 字 节 的 递增 计数 器 构成 。 


。 op 
操作 类 型 ， 只 有 1 字 市 代码 。( 例 如 “i” 代表 插 入 ) 


执行 操作 的 命名 空间 (集合 名 )。 
进一步 指定 要 执行 的 操作 的 文档 。 对 插入 来 说 ， 就 是 要 插入 的 文档 。 


需要 重点 强调 的 是 oplog 只 记录 改变 数据 库 状 态 的 操作 。 比 如 ， 查 询 就 不 再 存储 在 
oplog 中 。 这 是 因为 oplog 只 是 作为 从 下 扩 与 主 贡 所 保持 数据 同步 的 机 制 。 


存储 在 oplog 中 的 操作 也 不 是 完全 和 主 节 点 的 操作 一 模 一 样 的 。 这 些 操作 在 存储 之 前 
先 要 做 等 医 变 换 ， 也 就 是 说 ， 这 些 操作 可 以 在 从 服务 恬 端 多 次 执行 ， 只 要 顺序 是 对 的 ， 
就 不 会 有 问题 。 例 如 ， 使 用 "$inc*" 执行 的 增加 更 新 操作 ， 会 被 转换 成 "$set" 操作 。 


另外 一 点 要 注意 的 就 是 ，oplog 存储 在 固定 集合 中 ( 详 见 7.2 节 )。 由 于 新 操作 也 会 
存储 在 oplog 里 ， 它 们 会 自动 替换 旧 的 操作 。 这 样 就 能 保证 oplog 不 超过 预先 设 定 
的 大 小 。 启 动 服务 器 时 可 以 用 - -oplogsize 指定 这 个 大 小 ， 单 位 是 MB。 默 认 情 况 
下 ，64 位 的 实例 将 使 用 oplog 5% 的 可 用 空间 。 这 个 空间 将 在 local 数据 库 中 分 配 ， 
并 在 服务 器 启动 时 预先 分 配 。 


9.4.2 同步 

从 布点 第 一 次 启动 时 ， 会 对 主 节 点 数据 进行 完整 的 同步 。 从 节点 复制 主 节 点 上 的 每 
个 文档 ， 耗 费 的 资源 可 想 而 知 。 同 步 完 成 后 ， 从 节点 开始 查询 主 节 点 的 oplog 并 执 
行 这 些 操作 ， 以 保证 数据 是 最 新 的 。 

如 果 从 节点 的 操作 已 经 被 主 节点 落下 很 远 了 ， 从 节点 就 跟 不 上 同步 了 。 跟 不 上 同步 的 
从 节点 无 法 一 直 不 断 地 追赶 主 节 点 ， 因 为 主 节点 oplog 的 所 有 操作 都 太 “ 新 ”了 。 从 
节点 发 生 了 宕 机 或 者 疲 于 应 付 读 取 时 就 会 出 现 这 种 情况 。 也 会 在 执行 完 完整 同步 以 后 
发 生 类 似 的 事 ， 因 为 只 要 同步 时 间 太 长 ， 同 步 完成 时 ，oplog 可 能 已 经 入 了 一 圈 了 。 
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从 市 点 跟 不 上 同步 时 ， 复 制 就 会 停 下 ， 从 节点 需要 重新 做 完整 的 同步 。 可 以 用 {'"resync" 
: 1} 命令 手动 执行 重新 同步 ， 也 可 以 在 启动 从 节点 时 使 用 -~-autoresync 选项 让 其 自动 
重新 同步 。 重 新 间 步 代价 高 昂 ， 所 以 要 尽量 避免 ， 方 法 就 是 配置 足够 大 的 oplog。 


为 了 避免 从 市 扩 跟 不 上 ,一定 要 确保 主 厂 点 的 oplog 足够 大 ， 能 存放 相当 长 时 间 的 操 
作 记 录 。 大 的 oplog 显然 会 占用 更 多 的 磁盘 空间 ， 这 就 需要 权衡 一 下 ， 找 个 折 中 点 
(默认 的 oplog 大 小 是 剩余 磁盘 空间 的 5%)。 关 于 oplog 大 小 的 相关 事宜 ， 参 见 9.5 节 。 


9.4.3 复制 状态 和 本 地 数据 库 


本 地 数据 库 用 来 存放 所 有 内 部 复制 状态 ， 主 节点 和 从 市 点 都 有 。 本 地 数据 库 的 名 字 就 是 
local， 其 内 容 不 会 被 复制 。 这 样 就 能 确保 一 个 MongoDB 服务 器 只 有 一 个 本 地 数据 库 。 


本 地 数据 库 不 限于 存放 MongoDB 的 内 部 状态 。 a 不 想 被 复制 的 文档 ， 
也 可 以 将 其 放 在 本 地 数据 库 的 集合 里 面 。 





主 市 点 上 的 复制 状态 还 包括 从 节 扣 的 列表 (从 节点 连接 主 节点 时 会 执行 nandshake 
命令 进行 握手 ) 。 这 个 列表 存放 在 slaves 集合 中 : 


> db.slaves.findt) 


{ "* id" : ObjectId{("4c1287178e00e93d1858567c"), "host” : 0127.0.0.17"， 
"ns" : "lJ]ocal.oplog.s$main", "syncedTo™ : { "t" : 1276282710000, "i" 

1 1 : 

{ »_id" : ObjectIid{("4c128730e6e5c3096f40e0de"), "host”" : "127.0.0.17"， 
ns" : local.oplog.smain'", "gyncedTo" ; { Ht : 1276282710000,，, "i" 


1 }} 


从 节点 也 在 本 地 数据 库 中 存放 状态 。 在 me 集合 中 存放 从 节点 的 唯一 标识 符 ， 在 
sources 集合 中 存放 源 或 节点 的 列表 。 


> db.sources.findt) 


{ "* _ id" : ObjectIid{("4c1287178e00e93Gd1858567b"), "host" : 
rlocalhost:27017", 
ngsource” : "main'", "synceQdTo"™ : { tr : 1276283096000， "i"n : 1 }, 
"localLogTs" : { "ts : 0, "i" ;0 }} 


主 节点 和 从 节点 都 跟踪 从 节点 的 更 新 状况 ， 这 是 通过 存放 在 "syncedTo" 中 的 时 间 
鹤 来 完成 的 。 每 次 从 市 点 查询 主 节点 的 oplog 时 ， 都 会 用 "gyncedTo" 来 确定 哪些 
操作 需要 执行 ， 或 者 查看 是 否 已 经 跟 不 上 同步 了 。 


9.4.4 阻塞 复制 
开发 者 可 以 用 getLastError 的 "nw" 参数 来 确保 数据 的 同步 性 。 这 里 运行 getLast- 
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Error 会 进入 阻塞 状态 ， 直 到 N 个 服务 器 复制 了 最 新 的 号 入 操 作为 下 


> db .runCcommand ({getLastError: 1, w: N}); 


如 果 没 有 N， 或 者 小 于 2， 命令 就 会 立刻 返回 。 如 果 NN 等 于 2， 主 市 扩 要 等 到 至 少 一 
个 从 节点 复制 了 上 个 操作 才 会 响应 命令 ( 主 节点 本 身 也 包括 在 N 里 面 )。 主 节点 使 用 
local.slaves 中 存放 的 "syncedTo" 信息 跟踪 从 市 反 的 更 新 情况 。 


当 指 定 "wr" 选项 后 ， 还 可 以 使 用 "wtimeout" 选项 ， 表 示 以 毫秒 为 单位 的 超时 。 
getLastError 就 能 在 上 一 个 操作 复制 到 N 个 节点 超时 时 返回 错误 (默认 情况 下 命 
令 是 没有 超时 的 )。 


阻塞 复制 会 导致 写 操作 明显 变 慢 ， 尤 其 是 "w" 的 值 比较 大 时 。 实 际 上 ， 对 重要 操作 
将 其 值 设 为 2 或 者 3 就 能 效率 与 安全 兼备 了 。 


9.5 ”管理 
这 节 会 介绍 复制 管理 的 一 些 概念 。 


要 
9.5.1 诊断 
MongoDB 包含 很 多 有 用 的 管理 工具 ， 用 以 查看 复制 的 状态 。 当 连接 到 主 节 点 后 
使 用 ab .printReplicationInfo 国 数 ，; 
> Gb.printReplicationInfo(); 

configured oplog size: 10.48576MB 

log length start to end: 34secs (0.0lhrs) 

oplog first event time: Tue Mar 30 2010 16:42:57 GMT-0400 (EDT)} 


oplog last event time: Tue Mar 30 2010 16:43:31 GMT-0400 (EDT)} 
now: Tue Mar 30 2010 16:43:37 GMT-0400 {EDT) 


这 些 信息 是 oplog 的 大 小 和 oplog 中 操作 的 时 间 范 围 。 例 子 中 的 oplog 大 约 是 10 MB， 
仅 能 放置 大 约 30 秒 的 操作 。 差 不 多 是 时 候 为 oplog 扩容 了 ( 详 见 下 节 )。oplog 的 长 度 
至 少 要 能 满足 一 次 完整 的 重新 同步 。 不 然 ， 从 布点 同步 (或 者 重新 同步 ) 完成 后 发 现 
已 经 跟 不 上 了 。 


志 的 长 度 是 通过 oplog 中 最 早 的 操作 时 间 和 最 后 的 操作 时 间 的 差 值得 到 
的 。 如 果 刚 刚 启 动 服务 器 ， 最 早 的 操作 会 相对 较 新 。 这 时 ， 日志 的 长 度 就 
" 会 很 小 ， 即便 oplog 可 能 还 有 空闲 空间 也 是 如 此 。 所 以 说 ， 当 服务 器 跑 了 
一 段 时 间 ， 日 志 已 经 转 了 个 来 回 ， 这 时 日 志 长 度 才 能 准确 度量 记录 的 时 间 。 





当 连 接 到 从 节点 时 ， 用 db .printslaveReplicationInfo() 国 数 ， 能 得 到 从 节点 
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和 
的 一 些 信 息 HH 
> db.printSlaveReplicationInfo!{); 
SOurce: Jocalhost :27017 


syncedTo: Tue Mar 30 2010 16:44:01 GMT-0400 (EDT) 
= 1l2secs ago (0hrs) 


显示 的 是 从 节点 的 数据 源 列表 ， 其 中 有 数据 滞后 时 间 。 本 例 中 只 滞后 12 秒 。 


9.5.2 ”变更 oplog 的 大 小 


若 已 经 发 现 oplog 大 小 不 合适 ， 最 简单 的 做 法 就 是 停 掉 主 节 点 ， 删 除 local 数据 库 的 
文件 ， 用 新 的 设置 (--oplogSize) 重新 启动 。 过 程 如 下 : 
$ rm /data/db/local.* 


$ ./mongod --master --oplogSsize size 
size is specified in megabytes. 


所 以 尽 可 能 手动 预 分 配 数据 文件 。 关 于 停止 复制 (http://www.mongodb.org/ 


pe 为 大 型 的 oplog 预 分 配 空间 非常 耗费 时 间 ， 且 可 能 导致 主 节点 停机 时 间 增 加 ， 
Es display/DOCS/Halted+Replication)， 详 见 MongoDB 帮助 文档 。 


重启 主 节 点 之 后 ， 所 有 从 节点 得 用 - -autoresync 重启 ， 人 否则 需要 手动 重新 则 步 。 


9.5.3 复制 的 认证 问题 

如 果 在 复制 中 使 用 了 认证 ( 详 见 8.3.1 节 )， 还 需要 做 些 配置 ， 使 得 从 节点 能 够 访问 主 
节点 的 数据 。 在 主 节点 和 从 节点 上 都 需要 在 本 地 数据 库 添加 用 户 ， 每 个 节点 的 用 户 名 
和 口令 都 是 相同 的 。 本 地 数据 库 的 用 户 类 似 admin 中 的 用 户 ， 能 够 读 写 整 个 服务 器 。 


从 节点 连接 主 节点 时 ,会 用 存储 在 local.system.users 中 的 用 户 进行 认证 。 最 
先 尝试 “repl” 用 户 ， 若 没有 此 用 户 ， 则 用 local .system.users 中 的 第 一 个 可 用 
用 户 。 所 以 ， 按照 如 下 步骤 配置 主攻 所 和 从 世 所 ， 用 可 靠 的 密码 替换 password,， 
就 能 配置 认证 复制 了 : 

> USe local 

switched to db local 


> db.add User{"repl'", password); 


{ 


"User” : "repl", 
"readonly" : false, 
"pwd 了 » 于 有 LD 


} 
从 市 点 之 后 就 可 以 复制 主 市 点 了 。 
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分 厂 


分 片 是 MongoDB 的 扩展 方式 。 通 过 分 片 能 够 增加 更 多 的 机 器 来 应 对 不 断 增 加 的 负 
载 和 数据 ， 还 不 影 啊 应 用 。 


10.1 分 片 简介 


分 片 (sharding) 是 指 将 数据 拆 分 ， 将 其 分 散 存 在 不 同 的 机 器 上 的 过 程 。 有 时 也 用 
分 区 (partitioning) 来 表示 这 个 概念 。 将 数据 分 散 到 不 同 的 机 右上 ， 不 需要 功能 强 
大 的 大 型 计算 机 就 可 以 储存 更 多 的 数据 ， 处 理 更 大 的 负载 。 


使 用 几乎 所 有 数据 库 软件 都 能 进行 手动 分 片 。 应 用 需要 维护 与 看 干 不 同 数据 库 服务 器 
的 连接 ， 每 个 连接 还 是 完全 独立 的 。 应 用 程序 管理 不 同 服务 器 上 的 不 同 数据 ， 存 储 查 
询 都 需要 在 正确 的 服务 器 上 进行 。 这 种 方 革 可 以 很 好 地 工作 ， 但 是 非常 难以 维护 ， 比 
如 向 集群 添加 节点 或 从 集群 删除 市 点 都 很 困难， 调整 数据 分 布 和 负载 模式 也 不 轻松 。 


MongoDB 支持 自动 分 片 ， 可 以 摆脱 手动 分 片 的 管理 困扰 。 集 群 自动 切 分 数据 ， 做 负 


载 均衡 。 在 本 书 的 剩余 部 分 里 (以 及 差不多 其 他 所 有 MongoDB 的 文档 中 ) ， 分 片 和 自 
动 分 片 是 混用 的 ， 意 思 是 一 样 的 ， 但 是 要 清楚 应 用 中 自动 分 片 和 手动 分 片 的 差别 。 


10.2 MongoDB 中 的 自动 分 片 


MongoDB 分 片 的 基本 思想 就 是 将 集合 切 分 成 小 块 。 这 些 块 分 散 到 若干 片 里 面 ， 每 
个 片 只 负责 总 数据 的 一 部 分 。 应 用 程序 不 必 知 道 哪 请 对 应 哪些 数据 ， 甚 至 不 需要 知 
道 数 据 已 经 被 拆 分 了 ， 所 以 在 分 片 之 前 要 运行 一 个 路 由 进程 ， 该 进程 名 为 mongos。 
这 个 路 由 器 知道 所 有 数据 的 存放 位 置 ， 所 以 应 用 可 以 连接 它 来 正常 发 送 请 求 。 对 应 
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用 来 说 ， 它 仅 知道 连接 了 一 个 普通 的 mongod。 路 由 器 知道 数据 条 片 隐 入 应 买 蒜 ， 
能 够 转发 请 求 到 正确 的 片上 。 如 果 请 求 有 了 回应 ， 路 由 器 将 其 收集 起 来 回 送 给 应 用 。 
在 没有 分 片 的 上 时候， 客户 端 连接 mongod 进程 ， 如 图 10-1 所 示 。 分 片 时 客户 端 会 连 


接 mongos 进程 ， 如 图 10-2 所 示 。mongos 对 应 用 隐藏 了 分 片 的 细节 。 从 应 用 角度 
看 ， 分 片 不 分 片 没 什么 差别 。 所 以 需要 扩展 的 时 候 ， 不 必修 改 应 用 程序 的 代码 。 





如 果 现 在 还 用 的 是 老 版 本 的 MongoDB， 最 好 升级 到 1.6.0 以 上 版 本 ， 之 后 
再 用 分 片 。 分 片 虽 存 在 了 一 段 时 间 了 ， 但 是 从 1.6.0 后 才 是 生产 版 本 。 
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何 时 分 上 三 

常见 问题 就 是 什么 时 间 开 始 分 片 呢 。 出 现下 面 的 信号 时 ， 就 要 考虑 使 用 分 厂 了 。 
。 机 器 的 磁盘 不 够 用 了 。 

。 单个 mongod 己 经 不 能 满足 写 数 据 的 性 能 需要 了 。 

。 想 将 大 量 数据 放 在 内 存 中 提高 性 能 。 


一 般 说 来 ， 先 要 从 不 分 片 开 始 ， 然 后 在 需要 时 将 其 转换 成 分 片 的 。 


10.3 ”所 键 


设置 分 片 时 ， 需 要 从 集合 里 面 选 一 个 键 ， 用 该 键 的 值 作为 数据 拆 分 的 依据 。 这 个 键 
称 为 片 键 (shard key ) 。 

用 个 例子 来 说 明 这 个 过 程 : 假设 有 个 文档 集合 表示 的 是 人 员 。 如 了 果 选 择 名 字 
(mname") 作为 片 键 ， 第 一 片 可 能 会 存放 名 字 以 A~F 开头 的 文档 ， 第 二 片 存 的 G~P 
的 名 字 ， 第 三 片 存 的 Q~Z 的 名 字 。 随 着 添加 (或 者 删除 ) 片 ，MongoDB 会 重新 平 
衡 数据 ， 使 每 片 的 流量 都 比较 均衡 ， 数 据 量 也 在 合理 范围 内 〈 例 如， 流量 比较 大 的 
片 存 放 的 数据 或 许 会 比 流 量 小 的 片 数据 量 要 少 些 ) 。 


10.3.1 将 已 有 的 集合 分 片 


假设 有 个 存储 日 志 的 集合 ， 现 在 要 分 片 。 我 们 开启 分 片 功能 ， 然 后 告诉 MongoDB 
用 "timestamp" 作为 片 键 ， 就 把 所 有 数据 放 到 了 一 个 片上 。 可 以 随意 插入 数据 ， 
但 总 会 是 在 一 个 片上 。 


而 后 ， 增 加 一 个 片 。 这 个 片 建 好 并 运行 了 以 后 ，MongoDB 就 会 把 集合 拆 分 成 两 半 ， 
称 为 块 。 每 个 块 中 包括 片 键 值 在 一 定 范 围 内 的 所 有 文档 ， 所 以 就 假设 其 中 一 块 包含 
时 间 惟 在 2003 年 6 月 26 日 以 前 的 文档 ， 另 一 块 信 有 2003 年 6 月 27 日 以 后 的 文 
档 。 其 中 一 块 会 被 移动 到 新 片上 。 


如 果 新 文档 的 时 间 戳 在 2003 年 6 月 27 日 之 前 ， 则 添加 到 第 一 个 块 ， 否 则 就 加 到 另 一 个 块 。 


10.3.2 ”递增 片 键 还 是 随机 片 键 
片 键 的 选择 决定 了 插入 操作 在 片 之 间 的 分 布 。 


如 果 选 择 了 像 "timestamp" 这 样 的 键 ， 这 个 值 很 可 能 不 断 增长 ， 而 且 设 有 太 大 的 
间断 ， 就 会 将 所 有 数据 发 送 到 一 个 片上 (含有 [2003 年 6 月 27 日 ，% ] 的 那 片 )。 
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要 知道 ， 如 果 又 添加 了 新 片 ， 再 拆 分 数据 ， 还 是 会 都 插入 到 一 台 服 务 器 上 。 添 加 
了 新 片 ，MongoDB 可 能 会 将 [2003 年 6 月 27 日 ，% ] 拆 分 成 [2003 年 6 月 27 日 ， 
2010 年 12 月 12 日 ] 和 [2010 年 12 月 12 日 ， wm ]。 最 后 还 是 只 用 “至 此 以 后 ”的 
那个 片 来 插入 。 这 就 不 适合 写 入 负载 很 高 的 情况 了 ， 但 按照 片 键 查 询 会 非常 高 效 。 
如 果 写 入 负载 比较 高 ， 想 均匀 分 散 负载 到 各 个 片 ， 就 得 选择 分 布 均 勺 的 片 键 。 日 志 的 
例子 中 时 间 惟 的 散 列 值 或 者 没有 特定 模式 的 "logMessage" 都 是 符合 这 个 条 件 的 。 

不 论 片 键 随机 跳跃 还 是 稳定 增加 ， 片 键 的 变化 至 关 重 要 。 例 如 ， 如 果 有 个 
"logLevel" 键 只 有 3 种 值 "DEBUG"、"WARN" 或 "ERROR"，MongoDB 就 无 论 如 何 
也 不 能 把 它 作 为 片 键 将 数据 分 成 多 于 3 块 (因为 只 有 3 个 值 )。 如 果 键 的 变化 太 少 ， 
但 又 想 让 其 作为 片 键 ， 可 以 将 这 个 键 与 一 个 变化 较 大 的 键 组 合 起 来 ， 创 建 一 个 复合 片 
键 ， 例 如 "logLevel" 和 "timestamp" 组 合 。 


选择 片 键 并 创建 片 键 很 像 建 索引 ， 因 为 二 者 原理 类 似 。 事 实 上 ， 厂 键 也 是 最 第 用 的 索引 。 


10.3.3 片 键 对 操作 的 影响 

最 终 用 户 应 该 无 法 区 分 是 否 分 片 。 然 而 ， 了 解 在 选择 不 同 片 键 的 情况 下 查询 有 何不 
同 ， 还 是 很 有 帮助 的 ， 尤 其 是 使 用 了 分 片 的 时 候 。 

假设 还 是 那个 上 一 节 所 说 的 集合 ， 按 照 "name" 分 片 ， 有 3 个 片 ， 其 名 字 首 字母 的 
范围 是 A~Z。 下 面 会 以 不 同 的 方式 执行 不 同 的 查询 : 


db.people.find{({{"name'" : "Susan"}) 


mongos 会 将 这 个 查询 直接 发 送 给 Q~Z 片 ， 获 得 响应 后 ， 直 接 转 发 给 客户 端 。 


db.people.find{{"name" : {"$lt" : *L"}}) 
mongos 会 将 其 先后 发 送 给 A~F 和 G~P 片 。 然 后 将 结果 转发 给 客户 问 。 
db.people.find(}) .sort ({'email" : 1}) 


mongos 会 在 所 有 片上 查询 ， 返 回 结 果 时 还 会 做 归并 排序 ， 确 保 结果 顺序 正确 。 
mongos 用 游标 从 各 个 服务 器 上 获取 数据 ， 所 以 不 必 等 到 全 部 数据 都 拿 到 才 向 客户 端 
发 送 批量 结 采 。 


db.people.find({"email'" : *joe@example.com"}) 


mongos 并 不 跟踪 "email" 键 ， 所 以 也 不 知道 应 该 将 查询 发 给 哪个 片 。 所 以 ， 它 就 
向 所 有 乒 顺 序 发 送 查 询 。 


如 果 插 入 文档 的 话 ，mongos 会 依据 "name" 键 的 值 ， 将 其 发 送 到 相应 的 请 上 。 
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建立 分 片 有 两 步 ， 启 动 实际 的 服务 器 ， 然 后 决定 怎么 切 分 数据 。 
分 片 一 般 会 有 3 个 组 成 部 分 。 
， 片 
片 就 是 保存 子 集合 数据 的 容器 。 片 可 是 单个 的 mongoa 服务 器 (开发 和 测试 


用 )， 也 可 以 是 副本 集 (生产 用 )。 所 以 ， 即 便 一 片 内 有 多 台 服 务 器 ， 也 只 能 有 
一 个 主 服务 器 ， 其 他 的 服务 器 保存 相同 的 数据 。 


* mongos 
mongos 就 是 MongoDB 各 版 本 中 都 配 的 路 由 器 进程 。 它 路 由 所 有 请 求 ， 然 后 将 
结果 聚合 。 它 本 身 并 不 存储 数据 或 者 配置 信息 (但 会 缓存 配置 服务 器 的 信息 )。 


。 配置 服务 器 

配置 服务 器 存储 了 集群 的 配置 信息 : 数据 和 片 的 对 应 关系 。mongos 不 永久 存 

放 数 据 ， 所 以 需要 个 地 方 存放 分 片 配置 。 它 会 从 配置 服务 器 获取 同步 数据 。 
如 果 已 经 能 用 了 MongoDB， 就 有 了 一 个 整装待发 的 片 了 (当前 的 mongod 可 以 变 成 
第 一 个 片 )。 下 一 节 会 介绍 如 何 从 头 建 立 一 个 片 ， 但 这 不 是 表示 一 定 要 这 么 做 ， 从 已 
有 的 数据 库 开始 是 没 问题 的 。 


10.4.1 启动 服务 器 


首先 要 启动 配置 服务 器 和 mongos。 配 置 服务 器 需要 最 先 启动 ， 因 为 mongos 会 用 到 
其 上 的 配置 信息 。 配 置 服务 器 的 启动 就 像 普通 mongod 一 样 。 


$ mkdir -p ~/dbs/config 
$ ./mongod --dbpath ~/dbs/config --port 20000 


配置 服务 器 不 需要 很 多 空间 和 资源 (200 MB 实际 数据 大 约 占用 1 KB 的 配置 空间 )。 


现在 就 可 以 建立 mongos 进程 ， 以 供应 用 程序 连接 。 这 种 路 由 服务 器 连 数 据 目 录 都 
不 需要 ， 但 一 定 要 指明 配置 服务 器 的 位 置 : 


$ ./mongos --port 30000 --configdb localhost:20000 


分 片 管理 通常 是 通过 mongos 完成 的 。 


添加 片 
厂 就 是 普通 的 mongod 实例 (或 者 副本 集 ) ， 


$s mkdir -p ~/dbs/shardl 
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$ ./mongod --dbpath ~/dbs/shardl --port 10000 
现在 连接 刚才 启动 的 mongos， 为 集群 添加 一 个 片 。 启 动 shell， 连 接 mongos: 


$ ./mongo localhost:30000/admin 
MongoDB shell version: 1.6.0 

url: localhost:30000/admin 
connecting to localhost:30000/admin 
type "help" for help 


> 


确定 连接 的 是 mongos 而 不 是 mongod 后 ， 就 可 以 通过 addshard 命令 添加 片 了 : 


> db.runCommand {{addshard : "localhost:10000", allowLocal : true}) 
{ 

"added" : "localhost:10000", 

"ok" : true 


} 


当 在 localhost 上 运行 斤 时 ， 得 设 定 "allowLocal" 键 。MongoDB 尽量 避免 由 于 
错误 配置 ， 将 集群 配置 到 本 地 ， 所 以 得 让 它 知 道 这 仅仅 是 开发 ， 而 且 我 们 很 清楚 目 
己 在 做 什么 。 如 果 是 在 生产 环境 中 ， 则 要 将 其 部 署 在 不 同 的 机 器 上 (虽然 可 能 会 有 
交合 ， 详 见 下 节 )。 


想 添 加 斤 的 时 候 ， 就 运行 addshard。 MongoDB 会 负责 将 片 集成 到 集群 。 


10.4.2 ” 切 分 数据 


MongoDB 不 会 将 存储 的 每 一 条 数据 都 直接 发 布 ， 得 先 在 数据 库 和 集合 的 级 别 将 分 
片 功能 打开 。 下 面 的 例子 欲 以 ， id 为 基准 切 分 foo 数据 库 的 bar 集合 。 首 先 得 开 
启 foo 的 分 片 功 能 : 


> db.runCommand ({"enablesharding" : "foo"}) 


对 数据 库 分 片 后 ， 其 内 部 的 集合 便 会 存储 到 不 同 的 厂 上 ， 同 时 也 是 对 这 些 集合 分 厂 
的 前 置 条 件 。 


在 数据 库 的 级 别 启用 了 分 片 以 后 ， 就 可 以 使 用 shardcollection 命令 来 对 集合 进 
行 分 片 了 : 


> db.runCommand ({"shardcollection" : "foo.bar", "key" : {" id" : 1}}) 


这 样 集合 就 按照 "_ia" 分 片 了 。 再 添加 数据 ， 就 会 依据 "*_ia" 的 值 自动 分 散 到 各 个 
片上 。 


10.5 生产 配置 


前 一 节 的 例子 对 于 尝试 分 片 开 发 而 言 还 是 不 错 的 。 但 应 用 进入 产品 环境 以 后 ， 就 需 
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要 更 加 健壮 的 方案 了 。 成 功 地 构建 分 片 需要 如 下 条 件 。 


。 多 个 配置 服务 器 。 

。 多 个 mongos 服务 器 。 

。 每 个 片 都 是 副本 集 。 

。 正确 设置 w。( 有 关 w 和 复制 的 更 多 信息 ， 详 见 上 一 章 。) 


10.5.1 健壮 的 配置 
建立 多 个 配置 服务 器 是 非常 简单 的 。 本 书写 作 时 ， 可 以 建立 一 个 配置 服务 絮 (开发 
用 ) 或 者 三 个 配置 服务 器 (生产 用 )。 
设置 多 个 配置 服务 器 和 设置 一 个 完全 一 样 ， 就 是 重复 3 次 而 已 : 
$ mkdir -p ~/dbs/configl ~/dbs/config2 ~/dbs/config3 
$ ./mongod --dbpath ~/dbs/configl --port 20001 


$ ./mongod --dbpath ~/dbs/config2 --port 20002 
$ ./mongod --dbpath ~/dbs/config3 --port 20003 


然后 ， 启 动 mongos 的 时 候 应 将 其 连接 到 这 3 个 配置 服务 器 : 

$ ./mongos --configdb localhost:20001,1localhost:20002,localhost:20003 
配置 服务 器 使 用 的 是 两 步 提交 机 制 ， 而 不 是 普通 MongoDB 的 异步 复制 ， 来 维护 集 
群 配置 的 不 同 副 本 。 这 样 能 保证 集群 状态 的 一 致 性 。 这 也 意味 着 ， 茶 台 配 置 服务 器 
和 宕 掉 了 了 以后， 集群 配置 信息 将 是 只 读 的 。 客 户 端 还 是 能 够 读 写 ,但 是 只 有 所 有 配置 
服务 器 备份 了 以 后 才能 重新 均衡 数据 。 


10.5.2 ”多 个 mongos 


mongos 的 数量 不 受 限 制 。 建 议 针对 一 个 应 用 服务 器 只 运行 一 个 mongos 进程 。 这 样 
每 个 应 用 服务 器 就 可 以 与 mongos 进行 本 地 会 话 ， 如 果 服 务 器 不 工作 了 ， 就 不 会 有 
应 用 试图 与 不 在 的 mongos 通话 了 。 


10.5.3 ”健壮 的 片 
生产 环境 中 ， 每 个 片 都 应 是 副本 集 。 这 样 单个 的 服务 器 坏 了 ， 就 不 会 导致 整个 片 失效 。 用 
addshard 命令 就 可 以 将 副本 集 作为 片 添加 。 添 加 时 只 要 指定 副本 集 的 名 字 和 种 子 就 好 了 。 


比如 要 添加 副本 集 foo， 其 中 包含 一 个 服务 器 prod.example.com:27017 (还 有 别 的 
服务 器 }， 就 可 以 使 用 下 列 命令 将 其 添加 到 和 集群 里 : 


> db.runCommand{{"addshard" : "foo/prod.example.com:27017"}) 
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如 果 prod.example.com 挂 了 ，mongos 会 知道 它 所 连接 的 是 过 个 副 玉 沫 ' 全 if 会 使 用 
新 的 主 节 点 。 
10.5.4 物理 服务 器 

貌似 需要 太 多 机 器 了 ; 3 个 配置 服务 器 ， 每 片 最 少 两 个 mongod， 还 有 若干 mongos 进 
程 。 但 是 这 些 不 一 定 都 需要 单独 的 服务 器 。 重 要 的 是 不 把 所 有 鸡蛋 放 在 一 个 篮子 里 。 
好 比 不 把 所 有 3 个 配置 服务 器 放 到 一 台 机 器 上 ， 不 把 所 有 mongos 放 到 一 台 机 器 上 ， 
不 把 这 个 副本 集 放 到 一 人 台 机 器 上 。 但 是 可 以 把 一 个 配置 服务 器 、 一 些 mongos 进程 和 
副本 集 的 一 个 布点 放 到 一 台 机 器 上 。 


10.6 ”管理 分 片 


分 片 信息 主要 存放 在 config 数据 库 上 ， 这 样 就 能 被 任何 连接 到 mongos 的 进程 访问 到 了 。 


10.6.1 配置 集合 
下 几 市 的 代码 都 假设 已 经 在 shell 中 连接 了 mongos， 并 且 已 经 运行 了 use config。 


1. 片 
可 以 在 shards 集合 中 查 到 所 有 的 片 ; 


» db.shards.findl() 


{ " id" : "shard0", "host" : "localhost:10000" } 
{ ”ia : "gshardil", "host" : "localhost:10001" } 
每 片 都 有 一 个 唯一 的 、 好 认 的 _iq。 
2. 数据 库 


databases 集合 含有 已 经 在 片上 的 数据 库 列表 和 一 些 相 关 信息 : 


db.databases .finad!{() 

nu id" : "admin", "partitioned" : false, "primary" : "config" } 
: "foo", "partitioned" : false, "primary" : "shardl" } 

" idn : "x", "partitioned" : false, "primary" : "shardo" | 


上 
位 


4d" : "test", 
"partitioned" : true, 
"primary" : "ghard0", 
"sharded" : { 
rtest .foo" : 
"key" : ee : 了 和 
"unique" : false 
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这 里 是 全 部 可 用 的 数据 库 和 一 些 基本 信息 。 


s Le 字符 串 
"_id" 表示 数据 名 。 


。 "partitioned"， 布 尔 型 


如 果 为 true， 则 表示 已 经 启用 分 片 功 能 


primary', 字符 串 

这 个 值 与 片 的 "_ia" 相对 应 ， 表 明 这 个 数据 库 的 “大 本 营 ” 在 哪里 。 不 论 分 片 
与 玫 ， 数 据 库 总 是 会 有 个 大 本 营 的 。 要 是 分 片 了 的 话 ， 创 建 数据 库 时 会 随机 选择 
一 个 片 。 也 就 是 说 ， 大 本 营 是 开始 创建 数据 库 文件 的 位 置 。 虽 然 分 厂 时 数据 库 也 
会 用 到 很 多 别 的 服务 器 ,但 会 从 这 个 片 开 始 。 


3. 块 


块 信息 保存 在 chunks 集合 中 。 这 有 很 多 有 趣 的 东西 ， 也 可 以 看 到 数据 到 底 是 怎 2 
切 分 到 集群 的 : 


> db.chunks .finad() 
{ 


" id" : "test.foo-x MinKey", 


"Jastmod"™ : { "tn : 1276636243000, "i"n : 1 }, 
ns" : "test.foo", 
| 
rx : { $minKey : 1 } 
ss 
max" : { 
nxn : { SmaxKey : 1 } 
rshard" : "shardO0O" 


单 块 的 集合 碗 外 这 样 的 : 块 的 范围 从 - % (MinKey) 到 co (MaxKey ) 。 


10.6.2 ”分 片 命令 
前 面 已 经 介绍 了 一 些 基 本 命令 ， 像 添加 块 、 启 用 分 片 。 还 有 些 命令 对 于 管理 集群 也 非 
前 有 帮助 。 
1. 获得 概要 
printShardingSstatus 给 出 前 面 说 的 那些 集合 的 概要 : 
> db.printShardingstatus () 
--- Sharding Status --- 


sharding version: { " id" : 1, "version" : 3 } 
shards: 
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{ "_id" : "shard0", "host" : "localhost:10000" } 
{ "_id"” : "shardl*, "host" : "localhost:10001" } 
databases: 


{ "_id" : "admin’"*, "partitioned" : false, "primary" : "config" } 
{ ”ia : "foo", “partitioned" : false, "primary" : nshardln } 

{ "_id" : "x'", *partitioned" : false, "primary" : "Shard0n } 

{ nian : "test', "partitioned" : true, "primary" : "shard0", 


"sharded" : { "test.foou : { "key” : { "x" :1}, "unique'" : false)} 
} } 


test.foo chunks: 
{ "xn : {$minKey : 1} } -->> {"x" : {$maxKey : 1} } on :shardo0 
{ "tn : 1276636243000, "i" : 1 } 


2. 删除 片 


用 removeshard 就 能 从 集群 中 删除 片 。z*emoveshazrd 会 把 给 定 片 上 的 所 有 块 都 挪 
到 其 他 片上 。 


> db.runCommand ({{"removeshard" : "localhost:10000"}); 
| 

"started draining" : "localhost:10000", 

WokK™ 了 
} 


在 挪动 过 程 中 ，removeshard 会 显示 进程 : 


> db.runCommand ({"removeshard" : "localhost:10000"}); 


{ 
msg" : ‘already draining...", 
"nremaining" : f{ 
ichunks" : 39, 
"dbs" : 2 
} ， 
“okt 坟 并 
} 


最 后 ， 挪 动 完 毕 ，removeshard 会 提示 片 已 被 成 功 删 除 。 


在 1.6.0 版 本 中 ， 如 果 删 除 的 片 是 数据 库 的 大 本 营 〈 基 片 )， 必 须 手动 移动 
数据 库 (使 用 moveprimary 命令 ) ， 


> db.runCcommand{({"moveprimary" : "test", "to" 
"rlocalhost:10001"}) 


{ 





"nprimary™ : 'localhost:10001", 
oR" s 1 


以 后 的 版 本 会 将 其 自动 化 。 
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应 用 举 秽 


本 书 前 面 所 举 的 例子 都 是 JavaScript 的 。 本 章 将 探索 实际 应 用 中 更 常用 的 语言 是 如 
何 与 MongoDB 配合 的 。 


11.1 ”化 学 品 搜索 引擎 ， Java 


Java 驱动 程序 是 MongoDB 最 早 的 驱动 。 它 已 经 用 于 生产 环境 多 年 ， 而 且 非 常 稳定 ， 
是 企业 级 开发 的 首选 。 


下 面 会 使 用 Java 驱动 程序 构建 一 个 化 合 物 的 搜索 引擎 。 这 个 例子 受到 http://www. 
chemeo.com 网 站 的 启发 。 这 个 德 索引 芝 有 成 二 上 万 的 化 合 物 的 化 学 性 质 和 物理 性 
质 ， 其 目标 就 是 使 这 些 信 息 全 部 能 够 被 搜索 到 。 


11.1.1 安装 Java 驱 动 程序 
Java 驱动 程序 是 一 个 JAR 文件 ， 可 以 从 Github (http:www.github.com/mongodb/ 
mongojava-driver/downloads) 上 下 载 。 将 这 个 JAR 加 入 到 类 路 径 中 完成 安装 。 


一 般 应 用 需要 使 用 的 所 有 Java 类 都 在 com.mongodb 和 com.mongodb .gridfs 两 
个 包 中 。.JAR 中 还 有 些 其 他 的 包 ， 当 想 要 修改 驱动 内 部 结构 或 是 扩展 功能 时 会 用 得 
到 ,但 绝 大 部 分 应 用 都 不 会 用 到 。 


11.1.2 ”使 用 Java 驱 动 程序 


就 和 Java 里 的 大 部 分 东西 一 样 ， 这 个 API 有 点 喝 嗪 (尤其 是 与 其 他 语言 的 API 相 
比 时 )。 然 而 ， 所 有 的 概念 都 类 似 于 使 用 shell， 几 乎 所 有 的 方法 名 都 是 完全 相同 的 。 
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com.mongodb .Mongo 类 会 与 MongoDB 服务 器 建立 连接 。 之 后 就 可 以 通过 集合 访 
问 数据 库 ， 然 后 获得 数据 库 的 连接 : 


import com.mongodb.Mongo; 
import com.mongodb .DB; 
import com.mongodb .DBCollection; 


class ChemSearch { 


public static void main(String[] args) | 
Mongo connection = new Mongo{()}); 
DB db = connection.getDB ("search"),; 
DBCollection chemicals = db.getCollection("chemicals"); 


Ew vw 
} 


这 和 样 连接 的 是 localhost:27017， 并 得 到 命名 空间 search.chemlcals。 


Java 中 的 文档 必须 是 org .bson.DBObject 的 实例 ，org .bson.DBObject 是 一 个 
接口 ， 可 认为 是 一 个 有 序 的 java.util.Map。 在 Java 中 有 多 种 创建 文档 的 方式 ， 
最 简单 的 要 数 用 com.mongodb .BasicpBObject 类 了 了。 因此， 创建 能 由 shell 表示 
为 {rxn : 1，wy" : "foo"} 的 这 种 文档 操作 如 下 : 

BasicDBObject doc = new BasicDBRObject () ; 


doc.put ("x"”, 1); 
doc .put { yn 和 nfoo") ; 


想 要 添加 内 风 文 档 ， 如 "z" : ee : "world"}, 就 得 导 先 创建 男 外 一 个 
BasicDBObject 对 象 ， 然 后 将 其 放 入 到 上 一 


BasicDBObject z = new BasicDBObject () ; 
z.Put(nhello"，nwor1ldan") ; 


Qoc .Dut ("2z", 2z2); 
这 样 就 有 了 文档 { "x" : 1，nYyn : 1foo", 2H : {"hello" 。 "world"}}。 


所 有 Java 驱动 程序 实现 的 其 他 方法 都 和 shell 中 的 类 似 ， 例 如 可 以 用 chemicals. 
insert (doc) 或 者 chemicals.find(aoc)。 完 整 的 Java 驱动 程序 的 API 文档 位 
于 http://api.mongodb.org/java，MongoDB Java 语言 中 心 (http://www.mongodb.org/ 
display/DOCS/Java+Language+Center) 还 有 些 文章 介绍 了 另外 儿 个 方面 的 话题 《并 
行 性 、 数 据 类 型 等 )。 


11.1.3 .模式 设计 
这 个 问题 的 难点 在 于 每 种 化 学 物质 都 有 数 以 千 计 的 属性 ， 而 且 要 能 对 全 部 这 些 属 性 
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做 快速 的 搜索 。 举 两 个 简单 的 例子 : 硅 和 和 氮 化 硅 。 硅 的 文档 比较 简单 : 
{ 


name' : sil]licon'", 
Hmw’” : 32.1173 


} 
mw 表示 “分 子 量 ”。 
氮 化 硅 就 会 有 很 多 属性 ， 所 以 它 的 文档 要 复杂 一 扩 : 


{ 
nname" : "silicon nitride", 
nmw” : 42.0922, 
nAfH gas"™ : { 
1Valuen : 372.38, 
runits®™ : #*kJ/mol" 
}, 
nua" gas" : { 
"value" : 216.81, 
runits®" : "J/mol XK" 
} 
} 


MognoDB 能 存放 任意 数量 、 任 意 属 性 结构 的 化 学 物质 ， 这 样 应 用 就 能 轻易 扩展 ， 
但 目前 还 不 能 对 当前 的 格式 进行 有 效 的 索引 。 想 要 快速 搜索 属性 ， 就 得 对 几乎 所 有 
键 进行 索引 ! 基于 第 5 章 所 学 ， 就 能 判断 这 绝 不 是 一 个 好 主意 。 


不 过 还 是 有 办 法 的 。MongoDB 索引 会 将 数组 的 每 一 个 元 素 都 涵盖 进去 ， 利 用 这 一 


特 上 后 ， 可 以 将 想 要 索引 的 属性 放 到 一 个 包含 弟 用 键 名 的 数组 中 。 例 如 ， 对 于 氮 化 硅 ， 
可 以 为 索引 添加 一 个 数组 ， 将 全 部 属性 放 到 数组 中 


name’ : silicon nitride', 
mw" : 42.0922， 
"AfH gas" : 1 
Hvyvalue" : 372.38, 
units”" : "kJI/mol" 
I 
Ha" gas" 。 { 
value" : 216.81, 
iunits” : "J/mol XK" 
}; 
"index"” : [ 
{"name" : "mw", "value" : 42.0922}, 
{"'name" : "AfH gas", "value" : 372.38}), 
{name" : "SS gas", "value" : 216.81)} 
] 
} 


对 于 硅 ， 数 组 只 有 一 个 元 素 ， 就 十 分 子 量 : 
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mame" : "silicon™, 
mw L173, 
"index" : I[ 
{"name" : "mw", "value" ; 32.1173} 
] 
} 


现在 只 要 创建 一 个 "index.name" 和 "index.value" 的 复合 索引 就 可 以 了 。 这 样 
就 能 很 快 地 搜索 化 学 品 的 任何 特性 了 。 


11.1.4 用 Java 实 现 
回 到 前 面 那 段 Java 代码 ， 现 在 使 用 ensureIndex 函数 建 复合 索引 : 


BasicDBObject index = new BasicDBObject (}; 
index.put ("index.name", 1); 
index.put ("index.value", 1);} 


chemicals.ensureIndex (index); 


创建 氮 化 硅 的 文档 不 难 ， 但 是 很 繁琐 : 


public static DBObject createSiliconNitride() | 
BasicDBObject sn = new BasicDBObject (); 
sn.put ("name", "silicon nitride"); 
sn.put ("mw", 42.0922); 


BasicDBObject deltafHgas = new BasicDBOb]ject(): 
deltafHgas .put ("value", 372.38); 
deltafHgas .put ("units", "kJ/mol"); 


sn.put ("AfH gas", deltafHgae); 


BasicDBObject sgas = new BasicDBObject (); 
sgas .put ("value", 216.81}; 
sgaB .put ("units", "J/mol x*K"); 


sn.put ("Ss gas", sgas); 


ArrayList<BasicDBRObject> index = new ArrayList<BasicDBaObject>(); 
index.add (BasicDBObjectBuilder.start () 

.add ("name", "mw") .add ("value", 42.0922) .get (})}); 
index.add(lBasicDBRObjectBuilder.start() 

.add ("name", "AfH’ gas'") .add{("value", 372.38) .get() ) ; 
index.add (BasicDBObjectBuilder.start() 

.add ("name", "9S gas") .add ("value", 216.81) .get ()); 


sn.put ("index", index),; 


return sn; 
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只 要 实现 了 java.util.List， 就 可 以 用 来 表示 数组 ， 所 以 用 java.util. 
ArrayList 来 存放 表示 化 学 物质 属性 的 内 符 文 档 。 


11.1.5 ”一些 问题 
这 种 结构 的 一 个 问题 就 是 ， 如 果 查 询 含有 多 个 条 件 ， 条 件 的 顺序 就 很 重要 。 比 如 要 


查找 分 子 量 小 于 1000、 沸 扣 大 于 0"、 凝 固 反 是 -20 的 文档 ， 最 简单 的 做 法 就 是 用 
"$all" 将 所 有 查询 条 件 都 放 进 去 : 


BasicDBObject criteria = new BasicDBObject () : 
BasicDBObject all = new BasgsicDBObject(); 


BasicDBObject mw = new BasicDBObject ("name", "mw");} 
mw.put ("value', new BasijcDBObject ("$1lt", 1000)); 


BasicDBObject bp = new BasicDBObject ("name", "bp"); 
bp.put ("value'", new BasicDBObject ("S$gt", 0)); 


BasicDBObject fp = new BasicDBObject ("name", "fp"); 
fp.put ("value", -20); 


all.put ("$elemMatch", mw),; 
all.put ("$elemMatch", bp); 
all.put ("selemMatch", fp)，; 
criteria.put ("jndex", new BasicDBObject ("$all", all)); 


chemicals.find{(criteria).; 
这 样 做 的 问题 是 ，MongoDB 只 用 索引 来 辅助 "$all" 条 件 句 的 第 一 项 。 假 设 有 


一 百 万 个 文档 的 "mw" 值 小 于 1000。MongoDB 可 以 利用 索引 来 完成 这 部 分 查询 ， 
但 是 还 会 用 扫描 的 方式 查找 沸点 和 凝 国 点 ， 这 就 会 花费 很 长 的 时 间 。 
要 是 已 知 数据 的 一 些 特征 ， 比 如 知道 只 有 43 种 化 学 物质 的 凝固 点 为 -20" ， 这 样 就 
可 以 调整 一 下 顺序 : 

all.put ("$selemMatch", fp); 

all.put ("selemMatch’”, mw);} 


all.put ($elemMatch", bp); 
criteria.put ("index'", new BasicDBObject ("$all", all)); 


这 样 数据 库 就 会 很 快 找到 43 个 元 素 ， 后 面 的 条 件 只 需要 扫描 43 个 元 素 就 好 了 (而 
不 征 一 百 万 个 元 素 )。 当 然 ， 找 出 所 有 查询 的 合理 顺序 相当 有 难度 ， 涉 及 模式 识别 和 
数据 察 合 算法 ， 这 些 内 容 超 出 了 本 书 的 范畴 。 


11.2. 新 闻 聚 合 器 : PHP 
接 下 来 会 创建 一 个 简单 的 新 闻 聚 合 器 应 用 : 用 户 提 交感 兴趣 的 站 点 的 链接 ， 其 他 用 
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户 可 以 评论 ， 对 链接 质量 发 起 投票 (也 包含 他 人 的 评论 )。 这 需要 建立 一 个 评论 树 和 
实现 一 个 投票 系统 。 


11.2.1 安装 PHP 驱 动 程序 


MongoDB 的 PHP 驱动 程序 是 一 个 PHP 扩展 。 在 绝 大 部 分 平台 下 都 很 容易 安装 。 
PHP 5.1 及 以 上 版 本 的 系统 就 可 以 了 。 


1. 在 Windows 下 安装 
先 要 查看 phpinfo() 的 输出 ， 看 看 运行 的 PHP 版 本 (在 Windows 下 只 支持 PHP 5.2 和 
5.3， 不 支持 5.1)， 包 括 VC 版 本 。 如 果 用 的 是 Apache， 则 需要 VC6， 否 则 需要 VC9。 
有 些 Zend 用 的 是 VC8。 还 要 注意 是 否 是 线程 安全 的 (thread-save， 通 常 缩写 为 “ts”)。 
看 phpinfo () 的 时 候 ， 留 总 extension dir 的 值 ， 一 会 儿 就 在 那里 安装 扩展 组 件 。 
现在 就 轻车熟路 了 ， 转 到 Github (http:www.github.com/mongodb/mongo-php-driver/ 
dow- nloads) ， 下 载 和 PHP 版 本 、VC 版 本 和 线程 安全 相 匹 配 的 包 。 解 压 ， 将 php_ 
mongo.dll 移动 到 extension_dir 目 永 。 
最 后 在 php.ini 文件 中 添加 如 下 一 行 : 

extension=php mongo.d1ll 


如 果 启 动 了 应 用 服务 器 (Apache、WAMPP 等 )， 请 重启 一 下 。 下 次 启动 PHP 时 会 
自动 加 载 Mongo 扩展 。 


2. 在 Mac OS X 下 安装 
要 是 有 PECL 的 话 ， 这 是 安装 扩展 组 件 的 最 简单 方式 了 : 
$ pecl install mongo 
有 些 Mac 没有 自 带 PECL 或 者 安装 扩展 组 件 的 PHP 库 不 正确 。 


要 是 PECL 不 能 正常 工作 ， 可 以 下 载 为 OS X 编译 好 的 二 进 制 文件 ， 地 址 在 Github 
(http:Wwww.github.com/mongodb/mongo-php-driver/downloads)。 执行 php -i 查 
看 运行 的 PHP 版 本 和 extension dir 的 值 ， 然 后 下 载 合适 的 版 本 (文件 名 中 含有 
“osx”) 。 解 压缩 ， 然 后 将 mongo.so 移动 到 extension_dir 指定 的 目录 。 


安装 完 后 ， 在 php.ini 文件 添加 下 列 命令 ， 


extension=mongo.so 


重启 应 用 服务 器 ，Mongo 扩展 组 件 会 在 下 次 PHP 启动 时 上 自动 加 载 。 
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3. 在 Linux 和 Unix 下 安装 
-运行 如 下 命令 : 
$ pecl install mongo 
在 php.ini 中 添加 下 面 一 行 : 
extension=mongo.so 


重启 应 用 服务 器 ，Mongo 扩展 组 件 会 在 下 次 PHP 启动 时 自动 加 载 。 


11.2.2 ”使 用 PHP 驱 动 程序 
Mongo 类 就 是 一 个 到 数据 库 的 连接 。 默 认 情 况 下 ， 构 造 器 莹 试 连接 本 地 默认 端口 处 
运行 的 数据 库 服 务 器 。 
用 _get 函数 从 连接 中 取得 数据 库 ， 同 样 也 可 以 从 数据 库 取得 集合 (甚至 从 集合 取 
得 子 集 合 )。 例 如 ， 下 面 语句 连接 MongoDB 后 ， 获 取 了 数据 库 foo 的 bar 集合 : 
<?php 
$connection = new Mongo(); 
$scollection = $connection->foo-»>bar; 


?3 
还 可 以 继续 链接 取 值 函 数 来 访问 子 集合 。 例 如 要 得 到 bar.baz 集合 ， 可 以 使 用 如 下 命令 : 
scollection = $connection->foo0->bar->baz; 


文档 用 PHP 中 的 关联 数组 表示 。 这 样 ，JavaScript 中 的 {"foo" : "par"} 就 可 以 
表示 成 PHP 中 的 array ("foo" => "bar")， 数 组 对 应 表示 为 PHP 中 的 数组 ， 这 
有 时 有 点 费解 : JavaScript 的 ["foo"， "bar"， "baz"] 等 价 于 array ("foo",， 


npar" rpaz™) 


对 于 nul1、 布 尔 型 、 数 字 型 、 字 符 串 和 数组 ，PHP 驱动 使 用 了 PHP 的 本 机 类 型 。 
对 于 其 他 类 型 ， 有 一 类 以 Mongo 作为 前 组 ， MongoCollection 是 集合 ， MongoDB 
是 数据 库 ，MongoRegex 是 正则 表达 式 。 这 些 类 在 PHP 手册 (http://us2.php.net/ 
manual/en/book.mongo.php) 里 有 详尽 的 说 明 。 


11.2.3 ”设计 新 闻 聚 集 器 
创建 的 新 闻 聚 集 器 较为 简单 ， 用 户 可 以 提交 有 趣 故 事 的 链接 ， 其 他 用 户 可 以 对 此 进 
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行 评论 或 者 投票 。 这 里 仅 做 两 个 后 : 创建 评论 树 和 处 理 投 票 。 


存放 提交 和 评论 ， 一 个 集合 就 够 用 了 ， 这 个 集合 称 作 posts。 起 初 的 posts 链接 着 
某 篇 文章 ， 形 式 大致 如 下 : 


{ 


" id : ObjectId()， 


"title” : "A Witty Title", 
"nurl"™ : "http://www.example.com", 
rdate" : new Date{(), 
Hyotes" : 0， 
nauthor" : { 
name’ : 1joen 


和 加 : ObjectId!) 7 
} 
} 


评论 的 形式 也 类 似 ， 只 不 过 没有 "url"， 而 是 "content'。 


各 


11.2.4 评论 树 
MongoDB 中 表示 树 的 方法 有 多 种 ， 选 择 哪 种 表示 方法 取决 于 要 执行 的 查询 的 类 型 。 


这 里 每 个 市 点 都 有 个 数组 ， 包 含 父 证 点、 祖父 节操 ， 等 等 。 所 以 比如 有 下 面 的 评论 结构 : 


original link 

|- comment 1 

| |- comment 3 (reply to comment 1) 

| |- comment 4 (reply to comment 1) 

| |- comment 5 (reply to comment 4) 
|- comment 2 

| |- comment 6 {reply to comment 2) 


评论 5 的 祖先 数组 会 包含 原始 链接 的 id、 评 论 1 的 _ ia、 评论 4 的 id。 评论 6 
的 祖先 则 有 原始 链接 的 _ia 和 评论 2 的 _idq。 这 样 非常 便于 搜索 “链接 X 的 所 有 评 
论 ” 或 者 “评论 2 的 回复 的 子 树 ”。 

用 这 样 的 方式 存放 评论 基于 如 下 假设 ， 有 很 多 评论 ， 但 只 对 某 一 小 部 分 评论 感 兴趣 。 
要 是 想 显 示 所 有 评论 ， 且 总 数 不 会 达到 好 几 千 条 ， 就 可 以 将 整个 评论 树 作为 提交 的 
链接 文档 的 内 幅 文 档 了 。 


使 用 这 种 祖先 数组 的 方式 ， 当 要 添加 新 评论 时 ， 得 加 集合 添加 新 文档 。 创 建 这 个 时 
子 文档 ， 要 将 其 与 父 厂 点 的 "_ia" 值 和 其 祖先 数组 联系 起 来 。 


function createLeaf ($parent, S$replyInfo) { 
schild = array{ 
»_id" => new MongoId{), 
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rcontent'" => S$replyIinfol[l'content!:], 
ndate" => new MongoDate () ， 
votes => 0,， 
nauthor" => arrayl 
name" => S$replyInfol'name!'], 
nnamen => S$replyInfol'name'], 
于 
"ancestors" => $parent ['ancestors'l], 
rparent" => S$parent[’' id':] 


); 


// add the parent's id to the ancestors array 
schild['ancestors'] [] = $parent[' 1id']; 


return schild; 


} 
之 后 就 可 以 为 posts 集合 添加 新 评论 了 : 
Scomment = createLeaf ($parent, S$replyInfo), 


$posts = $connection->news->posts,; 
$Sposts->insert ($comment); 


然后 就 查询 一 下 最 新 的 提交 (不 是 评论 ) : 


$sposts->find(array ("ancestors" => array{('$size! => 0))); 
$cursor->sort (array ("date" => -1)); 


SCUrSor 
$scursor 


如 果 要 查看 指定 文章 的 评论 ， 使 用 如 下 命令 就 可 以 找到 所 有 评论 : 
$cursor = S$posts~->find{(array ("ancestors'’ => $post1d)); 


事实 上 ， 可 以 用 这 个 查询 来 访问 评论 的 所 有 子 树 。 子 树 的 根 市 点 作为 $spostIG， 每 
个 子 节点 都 会 在 其 祖先 数组 中 含有 $postIda， 这 样 就 被 返回 了 。 


为 了 加 快 查询 速度 ， 需 要 按照 "date" 和 "ancestors" 建立 索引 : 


$spageOfComments = S$posts->ensureIndex {array ("date" => -1, "ancestors'" 
=> 1)); 


现在 就 能 非常 快速 地 查询 主页 面 、 评 论 树 或 评论 子 树 了 。 


11.2.5 投票 


六 票 也 有 多 种 实现 方式 ， 取 决 于 需要 的 功能 和 信息 允许 来 来 回回 地 投票 吗 ? 要 不 要 阻 
止 用 户 多 次 投票 ? 允许 改变 选择 吗 ? 你 关心 大 家 投票 的 时 间 吗 ， 以 便 查看 链接 的 趋势 ? 
每 个 需求 都 有 不 同 的 解决 方法 ， 需 要 很 复杂 的 代码 ， 而 最 简单 投票 就 是 用 "$inc": 


$posts->update{larray (" id" => S$post1d),array('$inc'! => array ("votes", 1))); 
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对 于 有 争议 的 或 是 热门 的 连接 ， 不 能 让 大 家 可 以 投 好 几 百 次 饮 i 以 妆 限 佣 径 介 用 六 
只 能 对 一 个 链接 投 一 次 。 最 简单 的 做 法 是 加 一 个 "voters" 数组 ”记录 二 下 投票 的 
人 ， 也 就 是 用 个 数组 把 用 户 的 "_ia" 值 都 记录 下 来 。 如 果 有 投票 ,执行 更 新 操 
作 ， 检 查 一 下 用 户 的 "_ia" 是 否 在 "_ia" 数组 中 : 

Fposts->update (array("_ id" => $postId, "voters" => array(l'$ne' => $userId)), 

array ('$inc' => array ("votes'", 1), 'S$push' => array ("voters'" => 
SuserId))): 

如 果 有 几 百 万 用 户 ， 这 样 做 没有 问题 。 要 是 投票 数量 再 大 点 ， 就 会 达到 4 MB 的 上 
限 ， 这 样 就 得 对 特别 热门 的 链接 特殊 处 理 一 下 ， 将 放 不 下 的 投票 放 到 新 的 文档 中 。 


11.3 目 定 义 提交 表单 : Ruby 


MongoDB 在 Ruby 开发 者 中 大 受 欢迎 ， 很 可 能 是 因为 面向 文档 的 方式 与 Ruby 的 动态 
灵活 的 风格 相 契 合 。 这 个 例子 将 用 MongoDB 的 Ruby 驱动 程序 建立 一 个 自 定义 提交 
表单 的 框架 ， 这 个 例子 是 《纽约 时 报 》 的 博客 文章 ， 介 绍 怎样 用 MongoDB 处 理 提交 
表 单 (http://open.blogs.nytimes.com/2010/05/25/building-a-better-submission-form/) 的 
简化 版 。 要 查看 在 Ruby 中 使 用 MongoDB 更 为 详尽 的 说 明 ， 请 参考 Ruby 语言 中 心 
(http://www.mongodb.org/display/DOCS/Ruby+Language+Center) 。 


11.3.1 安装 Ruby 驱 动 
Ruby 驱动 是 个 RubyGem， 地 址 为 httprubygems.org。 使 用 gem 来 安装 是 最 方便 的 方式 
了 。 事 先 要 安装 最 新 的 RubyGems (使 用 gem update --system)， 然 后 安装 mongo gem: 


$ gem install mongo 

Successfully inestalled bsocon-1.0.2 

Successfully installed mongo-1.0.2 

2 gems installed 

Installing ri documentation for bson-1.0.2... 
Building YARD (yri) index for bson-1.0.2... 
Installing ri documentation for mongo-1.0.2... 
Building YARD (yri) index for mongo-1.0.2..., 
Installing RDoc documentation for bson-1.0.2... 
Installing RDoc documentation for mongo-1.0.2... 


mongo gem 依赖 于 bson gem， 所 以 会 一 同安 装 。bson gem 负责 驱动 的 所 有 BSON 编码 和 和解 
码 (关于 BSON, 详 见 附录 C 中 的 “BSON” 一 节 )。 如 果 有 bson ext 的 话 ，bson 就 会 利 
用 其 中 的 C 扩 展 来 提高 性 能 。 出 于 性 能 考虑 ， 如 果 安 装 了 gem 一 般 都 要 安装 bson ext: 

$$ gem install bason ext 

Building native extensions. This could take a while... 


Successfully installed bason ext-1.0.1 
1 gem inastalled 
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只 要 bson ext 在 加 载 路 径 下 ， 就 会 自动 被 调用 的 。 


11.3.2 ”使 用 Ruby 驱 动 
可 以 用 Mongo: :Connection 类 连接 MongoDB 实例 。 生成 了 Mondo : :Connection 
以 后 ， 用 方 括号 就 可 以 得 到 数据 库 (这 里 用 到 的 就 是 stuffy 数据 库 ) : 


> require !'rubygems’! 
=> true 
> require ‘mongo'! 
=> true 
> Gb = Mongo: :Connection.newl[l"stuffy'] 


Ruby 驱动 用 散 列表 示 文 档 。 除 此 之 外 ， 其 API 和 shell 的 API 非常 相似 ， 方 法 名 基 
本 相同 (Ruby 用 的 是 下 划 线 命名 法 ，shell 用 的 是 驼峰 式 命名 法 )。 下 面 的 方式 在 
bar 集合 中 插入 文档 {"x" ; 1}， 然 后 查询 结 末 ， 

> Gb["bar"] .insert :x => 1 

=> BSON: :ObjectID{('4c168343e6fb1lb106£000001') 


> dbl"bar'"] .find one 
=> {" id"=>BSON: :ObjectID('4c168343e6fb1b106f£000001'), "x"=>1} 


Ruby 中 的 文档 有 些 地 方 值得 注意 。 


。 Ruby 1.9 的 散 列 是 有 序 的 ， 这 与 MongoDB 中 文档 的 工作 方式 相 匹 配 。 但 
在 Ruby 1.8 中 ， 散 列 是 无 序 的 。 如 有 必要 ， 驱 动 提供 了 一 种 特殊 的 类 型 
BSON: :OrderedHash， 当 键 的 顺序 很 重要 时 用 其 替代 普通 的 散 列 ， 

。 准备 存放 到 MongoDB 中 的 散 列 中 的 键 和 值 都 可 以 是 符号 ， 但 是 从 MongoDB 中 返 
回 的 散 列 中 ， 原 来 的 值 是 符号 输出 就 是 符号 ， 但 是 原来 的 键 若是 符号 则 返回 时 变 成 
字符 串 。 所 以 {:x => :y} 就 变 成 {"xn => :y} 了 。 这 是 用 BSON 表示 文档 的 
副作用 (关于 BSON， 详 见 附录 C)。 


11.3.3 ” 目 定 义 表单 提交 
现在 的 问题 是 为 用 户 提 交 的 数据 生成 自 定 义 的 表单 ， 用 这 些 表 单 来 处 理 用 户 提交 的 
信息 。 编 辑 器 创建 的 表单 ， 可 以 含有 各 种 各 样 的 字段 ， 每 个 字段 可 以 有 不 同 的 类 型 ， 
可 以 有 不 同 校 验 规则 。 这 里 会 利用 幅 入 文档 ， 将 每 个 字段 都 作为 表格 内 部 的 一 个 独 
立 的 内 髓 文档 存储 。 一 个 评论 提交 表单 的 形式 大 概 如 下 : 
comment form = { 
:_id => "comments", 


:fields => [ 


{ 


:name => "name', 
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:label => "Your Namenr， 
:help text => "Regquired?’, 
:regquired => true, 

:type => "string!’, 

:max length => 200 


:name => "email" 

:label => "Your E- mail Address' 

:help text => "Regquired, but will not be displayed'", 
:required => true, 

:type => "email" 


:name => "CoOomment’, 

:lJ]abel => !'Your Comment!’, 

:help text => "Comments will be moderated", 
:required => true, 

:type => "string", 

:word limit => 200 


} 


这 个 表格 就 体现 出 像 MongoDB 这 种 面向 文档 的 数据 库 的 好 处 。 首 先 ， 可 以 在 表单 
文档 中 直接 嵌入 字段 ， 而 不 必 存 到 别 的 地 方 然后 进行 连接 。 现 在 可 以 用 一 个 简单 的 
查询 得 到 表单 的 整个 表示 ， 还 能 对 不 同类 型 的 字段 使 用 不 同 的 键 。 在 上 面 的 例子 中 ， 
name 字段 有 :max length 键 ，comment 字段 有 :word limit 键 ， 而 email 字段 
就 没有 这 两 个 键 。 


1 idn We epee OG 
度 。 将 索引 设 成 唯一 索引 ， 还 能 保证 表单 名 不 重复 。 

编辑 器 创建 新 表格 时 ， 只 需 保 存 最 后 的 结果 文档 。 保 存 刚才 创建 的 comment_form 
(评论 表格 ) 文档 : 


db['"forms*] .save comment form 
每 次 想 要 呈现 包含 评论 表格 的 页 面 时 ， 要 先 用 表单 名 将 表单 文档 调 出 来 : 
dbl"forms"] .find one : id => "comments" 


返回 的 这 一 个 文档 就 包含 了 呈现 表单 所 需 的 全 部 信息 了 ， 包 括 名 字 、 标 签 、 要 呈现 
的 每 个 输入 字段 的 类 型 。 当 表单 发 生变 化 时 ， 编 辑 器 可 以 很 容易 地 添加 新 字段 ， 或 
者 为 已 有 的 字段 添加 新 的 约束 。 

当 用 户 提交 时 ， 可 以 用 之 前 用 过 的 查询 得 到 相关 的 表单 文档 ， 来 验证 用 户 提 交 ， 包 括 
是 否 填写 了 所 有 必 填 字段 ， 是 否 符合 其 他 指定 的 要 求 。 验 证 完 以 后 ， 就 可 以 将 提交 作 
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为 一 个 单独 的 文档 ， 保 存在 submissions 集合 中 。 提 交 的 形式 类 但 重 下 面 这 样 : 了 
comment submission = { 
:form id => "comments', 
:name => "Mike D.", 
:email => "mike@example.com", 


:comment => "MongoDB is flexiblel!" 


| 
这 里 又 一 次 充分 利用 了 文档 模型 ， 每 个 提交 都 能 有 自己 的 键 (这 里 是 :name, :email 
和 :comment ) 。. 提 交 只 有 一 个 必 选 键 :form id。 目 的 是 为 了 快速 绪 取 特定 表单 的 所 
有 提交 : 

db["submissions"] .find :form ia => "comments" 


为 了 提速 ， 还 要 按照 ;form id 建立 索引 : 


db["submissions"] .create index :form id 


同样 ， 对 于 给 定 的 提交 ， 也 能 通过 :form_id 找到 对 应 的 表单 文档 。 


11.3.4 ” ”Ruby 的 对象 映射 和 在 Rails 中 使 用 MongoDB 

有 一 些 库 在 基本 的 Ruby 驱动 的 基础 上 为 MongoDB 的 文档 提供 了 模型 (model)、 确 认 
(validation)、 关 联 (association) 等 内 容 。 最 流行 的 工具 要 算 MongoMapper (http:mongo- 
mapper.com/) 和 Mongoid (http://mongoid.org/) 了 。 如 果 习 惯 了 ActiveRecord 或 者 Data- 
Mapper， 和 那么 你 除了 基本 的 Ruby 驱动 外 要 考虑 使 用 这 些 对 象 映射 工具 。 


MongoDB 与 Ruby on Rails 配合 完美 ， 尤 其 是 用 了 上 面 提 到 的 映射 工具 时 。 
MongoDB 站 点 上 有 MongoDB 与 Rails 集成 的 最 新 指南 (http://www.mongodb.org/ 
display/DOCS/Rails+-+Getting+Started ) 。 


11.4 实时 分 析 : Python 


MongoDB 的 Python 驱动 叫做 PyMongo。 本 节 会 用 PyMongo 实现 对 Web 应 用 度量 
的 实时 跟踪 。PyMongo 最 新 的 帮助 文档 可 在 http://api.mongodb.org/python 上 找到 。 


11.4.1 安 效 PyMongo 


Python Package Index (http://pypi.python.org/pypi/pymongo/) 中 就 有 了 PyMongo， 用 
easy install (http://pypi.python.org/pypi/setuptools) 就 可 以 安装 ， 


$ easy install pymnongo 
Searching for pymongo 
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Reading http://pypi.python.org/simple/pymongo/ 
Reading http://github.com/mongodb/mongo-python-driver 
Best match: pymongo 1.6 

Downloading ... 


Processing pymongo-1.6-py2.6-macosx-10.6-x86 64.egg 
Moving ... 


Adding pymongo 1.6 to easy-install.pth file 


Installed ... 
Processing dependencies for pymongo 
Finished processing dependencies for pymongo 


这 样 就 安 半 了 PyMongo， 同 时 会 试 着 安 疙 可 选 的 C 扩 展 。 要 是 C 扩 展 安装 失败 ， 
一 切 也 能 照 第 运行 ， 只 不 过 性 能 不 高 。 如 果 发 生 这 种 和 情况， 安装 时 会 出 现 错误 提示 。 
除了 用 easy_install， 还 可 以 通过 产 代码 检查 运行 python setup.py install 来 安装 
PyMongo。 


11.4.2 ”使 用 PyMongo 


pymongo.connection.Connection 类 与 MongoDB 服务 器 连接 。 现 在 新 建 一 个 连 

from pymongo import Connection 

db = Connection{) .analytics 
PyMongo 的 API 与 MongoDB shell 的 API 非常 相似 。 和 Ruby 驱动 一 样 ，PyMongo 
也 使 用 下 划 线 命名 法 。PyMongo 中 用 字典 来 表示 文档 ， 因 此 要 插入 和 获取 文档 
{"a” : [1，2，3]}， 使 用 如 下 命令 就 可 以 : 

db .test .insert ({*an: [1, 2, 3]}) 

db.test.find one () 
Python 的 字典 是 无 序 的 ， 所 以 PyMongo 提供 了 dict 的 一 个 有 序 的 子 类 pymongo . 
son.SON。 大 多 数 需 要 顺序 的 情况 下 ，PyMongo 提供 的 API 都 将 这 点 对 用 户 隐 藏 。 
如 果 遇 到 了 特殊 情况 ， 应 用 可 以 使 用 sox 实例 替代 字典 ， 来 确保 文档 的 键 的 顺序 。 


11.4.3 ”用 于 实时 分 析 的 MongoDB 

MongoDB 非常 适合 做 实时 环境 中 的 跟踪 度量 工具 ， 原 因 如 下 。 

。 upsert 操作 ( 详 见 第 3 章 ) 能 用 一 条 消息 插入 新 跟踪 文档 或 者 对 已 有 文档 更 新 计 
数 絮 。 

。 upsert 发 送 后 不 需要 等 待 回应 ， 记 得 离 纺 之 箭 吧 ? 这 样 应 用 程序 就 能 避免 在 每 次 分 析 更 
新 时 阻塞 。 完 全 没有 必要 等 着 看 操作 是 否 成 功 ， 因 为 分 析 代 码 中 的 错误 用 户 又 不 会 知道 。 
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。 可 以 用 sinc: 更 新 计数 器 ， 而 不 必 分 别 执行 查询 和 更 新 操作 。 这 样 还 能 避免 同时 
更 新 的 冲突 。 
。 MongoDB 的 更 新 性 能 很 高 ， 因 此 为 分 析 的 每 个 请 求 执行 一 个 或 多 个 更 新 是 合理 的 。 


11.4.4 模式 
下 面 的 例子 会 跟踪 网 站 的 页 面 访问 ， 以 小 时 为 统计 单位 。 追 踪 的 内 容 是 总 的 页 面 访问 次 
数 和 每 个 单独 URL 的 访问 次 数 。 目 的 是 每 小 时 得 到 一 个 集合 ， 包 含 下 面 这 样 的 文档 : 


{ hournt : "Tue Jun 15 2010 9:00:00 GMT-0400 (EDT)}", url" : /Etoon， 
"views" :5 } 

{ "hour" : "Tue Jun 15 2010 9:00:00 GMT-0400 (EDT}*, "url" : "/bar", 
rviews" :5 } 

{ "hour” : "Tue Jun 15 2010 10:00:00 GMT-0400 {EDT)", "url"” : "/", 
rviews" : 12} 

{ "hour"™ : "Tue Jun 15 2010 10:00:00 GMT-0400 (EDT)*, "url" : /bar'", 
"views" :3 } 

{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 {EDT)", "url" : "/foo", 
"views" :10 } 

{ "hour” : "Tue Jun 15 2010 11:00:00 GMT-0400 {EDT)","url" : */foo", 
rviews" :21 } 

{ "hour” : "Tue Jun 15 2010 11:00:00 GMT-0400 {EDT)",r"url®” : /+*, 
"views" : 3} 


每 个 文档 代表 对 某 一 小 时 内 某 个 URL 的 访问 次 数 。 如 果 这 小 时 役 有 访问 ， 就 没有 
相应 的 文档 。 要 记录 整个 网站 所 有 页 面 的 访问 次 数 ， 应 使 用 另外 一 个 集合 hourly 
totals， 形 式 如 下 : 


{ "hour” : "Tuée Jun 15 2010 9:00:00 GMT-0400 (EDT)", "views" : 10 } 
{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 {EDT)", "views" : 25 } 


{ "hour” : "Tue Jun 15 2010 11:00:00 GMT-0400 {EDT)", "views" : 24 } 


因为 是 总 数 ， 这 里 的 不 同 就 是 不 需要 "url" 键 了 。 若 在 这 个 小 时 内 没有 页 面 访问 ， 
也 就 没有 相应 的 文档 。 


11.4.5 ”处 理 请 求 

每 当 应 用 接收 了 请 求 ， 就 需要 相应 地 更 新 分 析 的 集合 。 无 论 是 对 于 特定 URL 的 
hourly 集合 还 是 一 般 的 hourly_totals 集合 ， 都 要 更 新 计数 。 下 面 定义 一 个 函数 
来 处 理 某 个 URL， 更 新 分 析 数 据 : 


from datetime import datetime 


译注 1: sinc 是 原子 的 。 
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def track (url): . 
hour = datetime.utcnow() .replace (minute=0, segBonda0, Jmierosecond=0) 
db.hourly.update({"hour": hour, "url": Url 十， 

{"$inc": {"views": 1}}, upeert=True) 
db.hourly totals.update({"hour": hour}, 
{"$inc": {"views": 1}}, upsert=True) 


还 要 建立 索引 以 保证 高 效 地 执行 更 新 : 
from pymongo import ASCENDING 
db.hourly.create index([("url", ASCENDING), ("hour", ASCENDING)], 


unique=True) 
db.hourly totals.create index ("hour", unigque=True) 


对 于 hourly 集合 ， 使 用 "url" 和 "hour" 的 复合 索引 ， 而 对 于 hourly totals， 
只 对 "hour" 进行 索引 。 两 个 索引 都 是 唯一 索引 ， 因 为 每 个 统计 单位 只 应 该 有 一 个 
文档 。 


每 次 有 请 求 时 ， 就 调用 一 次 track， 并 将 请 求 的 URL 传递 过 去 。 它 就 能 执行 两 次 
upsert， 要 么 创建 新 的 统计 单位 文档 ， 要 么 更 新 已 有 文档 的 "views" 键 。 


11.4.6 ”使 用 分 析 数 据 
现在 已 经 有 了 跟踪 数据 ， 我 们 需要 一 种 方法 来 查询 数据 并 利用 这 些 数据 。 下 面 输出 
最 近 10 小 时 总 的 页 面 访问 量 : 

from pymongo import DESCENDING 

for rollup in db. hourly totals .find() .sort ("hour'",DESCENDING) .1imit (10): 


pretty date = rollup["hour"] .strftime("%Y/%m/%d %H") 
print "SS -~- %d" $$ (pretty date, rollup["views"]) 


这 个 查询 能 利用 已 经 有 的 "hour" 上 的 索引 。 可 以 对 每 个 URL 执行 类 似 的 操作 : 


for rollup in db.hourly.find({"url": url}) .sort ("hour",DESCENDING) .limit (10):; 
pretty date = rollup["hour"] .strftime("%Y/%m/%d %H") 
print "SB - %d" $% (pretty date, rollup["views"]) 


唯一 的 不 同 就 是 ， 我 们 增加 了 一 个 查询 文档 ， 用 于 选择 "url"。 这 里 也 用 到 了 已 经 
对 wurl" 和 "hour" 建立 的 复合 索引 。 


11.4.7 ”其 他 因素 


还 要 考虑 的 是 应 该 定期 运行 一 个 清理 任务 ， 删 掉 旧 的 分 析 文 档 。 我 们 只 要 显示 最 近 
10 小 时 的 数据 ， 没 有 必要 保留 一 个 月 的 文档 。 按 照 下 面 的 做 法 可 以 删除 超过 24 小 
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时 的 文档 ， 通 过 cron 或 类 似 机 制 就 可 以 定期 执行 了 : 
from datetime import timedelta 
remove before = datetime.utcnow() - timedelta (hours=24) 


db.hourly.remove{{"hour": {"$]lt": remove before}}) 
db.hourly totals.remove({"hour": {"$]lt": remove before}}) 


在 这 个 例子 中 ， 前 一 个 清除 因为 没有 在 "hour" 上 定义 索引 ， 所 以 得 做 表 扫 抽 。 要 
想 有 效 地 执行 这 个 操作 (或 者 执行 其 他 根据 "hour" 查询 所 有 URL 的 操作 )， 则 应 
该 考虑 在 hourly 集合 中 在 "hour" 上 创建 一 个 索引 。 


这 个 例子 另 一 个 值得 注意 的 方面 是 ， 除 了 页 面 访问 做 别 的 统计 分 析 也 很 容易 ， 调 
整 时 间 单 位 的 大 小 也 一 样 容易 (其 至 可 以 同时 使 用 多 种 时 间 单 位 )。 只 要 稍稍 调整 
track 函数 ， 以 给 定 的 时 间 单 位 用 upsert 记录 需要 的 度量 就 好 了。 z 
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朋 附 冰 A 丙 
安装 MongoDB 


在 大 部 分 平台 上 安装 MongoDB 都 很 简单 。Linux、Mac OS X、Windows 和 Solaris 
都 有 对 应 的 预 编 译 二 进 制 版 本 。 这 也 就 意味 着 在 大 多 数 平 台 上 ， 只 需要 从 http:/ 
www.mongodb.org 下 载 压缩 包 ， 解 压 ， 执 行 安装 就 好 了 。MongoDB 需要 一 个 数据 
目录 写 人 数据 库 文件 ， 和 一 个 端口 用 来 监听 连接 。 这 节 会 介绍 在 两 种 不 同 的 系统 下 
的 安装 过 程 : 一 种 是 Windows， 一 种 是 其 他 (Linux、Mac OS X、Solaris ) 。 


当 提 及 “安装 MongoDB `， 一 般 具 体 指 的 是 构建 核心 的 数据 库 服务 器 mongod。 
mongod 无 处 不 在 ， 可 以 作为 单个 服务 器 、 主 从 市 扩 、 副本 集 的 成 员 ， 还 可 以 当做 片 。 
通常 就 是 所 需要 的 MongoDB 进程 。 第 8 章 介绍 了 一 同 下 载 的 其 他 的 二 进 制 文件 。 


A.1 选择 版 本 


MongoDB 的 版 本 号 也 非常 好 理解 : 偶数 的 版 本 号 是 稳定 版 ， 奇 数 的 是 开发 版 。 例 如 ， 
1.6 开 头 的 是 稳定 版 ， 比 如 1.6.0、1.6.1 和 1.6.15。 以 1.7 开头 的 则 是 开发 版 ，1.7.0、 
1.7.2、1.7.10 都 是 开发 版 。 现 在 就 以 1.6/1.7 为 例 来 具体 讲 一 下 版 本 的 演变 过 程 。 


(1) 开发 者 发 布 1.6.0。 这 是 一 个 大 版 本 更 新 ， 会 有 很 多 变化 。 建 议 生 产 系 统 尽 
快 升 级 到 这 个 版 本 。 

(2) 开发 者 开始 着 手 开发 1.8 时 ， 发 布 了 1.7.0。 这 个 新 的 开发 分 支 和 1.6.0 非常 
类 似 ， 但 会 加 入 一 些 新 特性 ， 还 可 能 引入 一 些 bug。 

(3) 开发 者 继续 添加 新 功能 ， 然 后 发 布 1.7.1、1.7.2 等 。 

(4) bug 修正 和 没什么 风险 的 功能 则 合并 到 1.6 的 分 支 上 ,就 有 了 1.6.1、1.6.2 
等 。 对 于 这 种 调整 是 非常 保守 的 ， 只 有 个 别 功能 会 添加 到 稳定 版 中 ， 一 般 仅 修 
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J 上 bug。 . 

(5) 1.8.0 的 所 有 里 程 碑 都 达到 后 ， 开 发 者 发 布 一 个 版 本 ， 比 如 ，1.7.5。 

(6) 在 详细 测试 1.7.5 后 ， 通 常 需 要 修复 一 些 bug。 修 复 之 后 则 发 布 1.7.6。 

(7) 反复 重复 第 6 步 ， 直 到 没有 太 明 显 的 新 bug， 然 后 1.7.6 (或 者 最 后 发 布 的 
版 本 ) 就 会 被 重 命名 为 1.8.0。 这 样 ， 最 新 的 开发 版 就 成 了 新 的 稳定 版 。 

(8) 将 所 有 版 本 号 增加 .2， 然 后 从 第 一 步 重 新 再 来 。 


所 以 ， 最 急 版 本 的 开发 分 支 是 非常 不 稳定 的 (x.y.0、x.y.1、x.y.2)， 但 当 分 支 进 入 
x.y.5 的 时 候 ， 就 非常 接近 可 用 于 生产 的 水 平 了 。 在 MongoDB bug 追踪 器 (http:// 
jira.mongodb.org) 上 六 览 核心 服务 器 的 路 线 图 ， 可 以 了 解 生产 版 本 的 发 布 细节 。 


除非 是 需要 开发 版 的 某 些 功能 ， 否 则 在 生产 环境 中 应 该 用 稳定 版 。 即 便 是 需要 开发 
版 的 茶 些 功 能 ， 在 用 之 前 ， 最 好 通过 邮件 列表 或 者 IRC 与 开发 者 取得 联系 ， 让 他 知 
道 你 要 部 署 开发 版 到 生产 环境 中 ， 请 他 给 出 一 些 建 议 ， 确 保 数 据 的 安全 。( 当 然 ， 这 
样 总 是 一 个 不 错 的 主意 。) 


如 有 项 目 还 在 开发 阶段 ， 用 开发 版 可 能 会 更 好 。 项 目 上 线 部 署 时 ， 稳 定 版 也 发 布 了 
(MongoDB 保持 每 隔 几 个 月 就 发 布 稳定 版 的 周期 )， 这 样 就 可 以 用 到 最 新 的 功能 。 但 是 ， 
必须 要 权衡 利 刺 ， 因 为 这 么 做 很 可 能 引入 一 些 bug， 令 一 些 新 用 户 感到 困惑 ， 失 去 信心 。 


A.2 在 Windows 下 安装 


在 Windows 下 安装 MongoDB， 先 要 从 MongoDB 下 载 页 (http://www.mongodb. 
org/display/DOCS/downloads) 下 载 Windows 的 zip 文件 。 要 遵循 前 面 的 意见 ， 选 
择 合适 的 MongoDB 版 本 。Windows 下 有 32 位 和 64 位 的 版 本 可 供 选 择 。 点 击 连接 ， 
下 载 .zip 文件 ， 然 后 解压 缩 。 


接着 ， 要 建立 一 个 目录 ， 用 于 存放 数据 库 文件 。MongoDB 默认 使 用 C:\data\db 作为 
数据 目录 。 可 以 创建 这 个 目录 ， 也 可 以 在 系统 的 任意 位 置 创建 其 他 空 目 孙 。 前 面 讲 
过 ， 如 果 用 的 不 是 C:\data\db， 则 需要 在 启动 MongoDB 时 指明 数据 目录 。 


有 了 数据 目录 之 后 ， 打 开 命令 提示 (cmd.exe)。 进 入 到 MongoDB 解压 的 目录 ， 然 后 执行 : 


$ bin\mongod.exe 


如 果 用 的 不 是 C:\data\db 作为 数据 目录 ， 得 用 - -dbpath 参数 在 这 里 指定 : 


$ bin\mongod.exe --dbpath C:\Documents and Settings\Username\My 
Documents\db 
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更 多 选项 说 明 参 见 第 8 章 ， 或 者 用 mongod.exe --help 查看 所 有 选项 。 


作为 服务 进行 安 闭 
MongoDB 在 Windows 中 还 可 以 作为 服务 进行 安装 。 使 用 完整 的 路 径 来 运行 ， 忽 略 
所 有 空格 并 使 用 --install 选项 ， 就 可 以 安 粮 了 。 例 如 : 


$ C:\mongodb-windows-32bit-1.6.0\bin\mongod.exe 
--dbpath "\'C:\Documents and Settings\Username\My Documents\db\"™'" 
--install 


之 后 就 可 以 在 控制 面板 中 启动 或 停止 服务 了 。 


A.3 在 POSIX 系 统 (Linux、Mac OS X 和 


Solaris) 下 安装 
参考 A.1 市 的 建议 ， 选 择 MongoDB 的 版 本 。 到 MongoDB 下 载 页 面 ， 选 择 操作 系 
统 对 应 的 版 本 。 


如 果 在 Mac 中 ， 要 检查 是 32 位 的 还 是 64 位 的 。 选 择 不 当 的 版 本 ，Mac 就 
会 不 能 启动 MongoDB ， 还 会 给 出 很 多 令 人 费解 的 错误 信息 。 点 击 左 上 角 的 
“ 芋 果 ， 选 择 “About This Mac” 选项 查看 相应 的 信息 。 





必须 要 先 建立 数据 目录 ， 以 供 数 据 库 存放 文件 。 默 认 的 数据 目录 是 /data/db， 但 用 
别 的 目录 也 是 没 问题 的 。 如 果 创 建 了 默认 的 数据 目录 ， 要 确保 有 写 权 限 。 创 建 目录 
并 设置 写 权 限 的 操作 如 下 : 


$ mkdir -p /data/db 
$ chown -R SUSER: SUSER /data/db 


mkdir -p 会 创建 目录 和 必要 的 父 目录 (就 是 说 ，/data 不 存在 时 ， 会 先 创 建 /data， 
然后 创建 /data/db)。chown 更 改 /data/db 的 所 有 者 ， 以 便 用 户 可 以 对 其 写 入 。 当 然 ， 
可 以 在 你 自己 的 主 目录 中 创建 目录 ，MongoDB 用 这 样 的 目录 不 会 遇 到 权限 问题 。 


解压 缩 从 http://www.mongodb.org 下 载 的 .tar.gz 文件 。 


$ tar ZzZxf mongodb-linux-i686-1.6.0.tar.gz 
$ cd mongodb-linux-i686-1.6.0 


然后 就 可 以 启动 数据 库 了 : 
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$ bin/mongod 
也 可 以 用 --dbpath 选项 指定 别 的 数据 库 路 径 ; 
$ bin/mongod ‘--dbpath ~/db 


关于 常用 选项 的 介绍 ， 详 见 第 8 章 ， 或 者 使 用 mongod --help 查看 所 有 选项 。 


用 包 管 理 器 安装 

这 些 系统 上 有 很 多 包 管 理 器 可 以 安装 MongoDB。 比 如，Debian 和 Ubuntu 就 有 官方 
包 ，Red Hat、Gentoo 和 FreeBSD 下 有 非 官方 包 。 如 果 用 的 是 非 官 方 版 本 ， 局 动 数 
据 库 时 要 查看 日 志 ， 有 时候 这 些 包 没有 UTF-8 支持 。 


在 Mac 上 也 有 Homebrew 和 MacPorts 的 非 官方 包 。 如 果 用 MacPorts 版 本 ， 一 定 得 
小 心 : 编译 MongoDB 需要 的 Boost 库 可 能 要 花费 数 小 时 。 下 载 后 ， 把 编译 工作 留 
给 无 尽 的 长 夜 吧 。 


无 论 使 用 哪 种 包 管理 器 ， 在 出 问题 之 前 就 搞 清楚 MongoDB 将 日 志 存 放 在 什么 地 方 ， 
未 雨 绸 缪 总 没什么 坏处 。 一 定 要 确保 日 志保 存 正 常 ， 以 备 不 时 之 需 。 


译注 1， 日 志 监 控 可 以 避免 大 量 的 血泪 教训 。 
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附录 B 
mongo : MongoDB shell 


整 本 书 中 到 处 都 用 了 mongo， 其 实 它 是 数据 库 shell。 一 般 假定 它 和 mongoa 运行 在 
同一 台 机 器 上 ， 还 假定 mongod 绑 定 了 默认 端口 。 如 果 不 是 这 样 的 话 ， 可 以 在 启动 
时 指定 这 些 参数 ， 让 shell 连接 另 一 台 服 务 器 ， 


$ bin/mongo staging.example.com:20000 
这 样 就 会 连接 运行 在 staging.example.com 上 端口 为 20000 的 mongod。 
shell 默认 连接 test 数据 库 。 要 使 用 别 的 数据 库 ， 在 服务 器 地 址 后 添加 斜 杠 和 数据 库 
名 就 可 以 了 ; 
$ bin/mongo localhogst:27017/admin 
这 样 连接 的 就 是 本 地 默认 端口 的 mongod, 但 用 的 是 admin 数据 库 。 


也 可 以 用 --nodb 选项 启动 shell， 而 不 连接 数据 库 。 如 果 只 是 试 试 JavaScript， 过 
一 会 儿 再 连 数据 库 ， 就 可 以 这 么 用 : 

$ bin/mongo --nodb 

MongoDB shell version: 1.5.3 


type "help" for help 


> 


一 定 要 记 住 ，db 绝 不 是 仅 有 的 数据 库 。 从 shell 中 可 以 连接 任意 多 个 数据 库 ， 这 对 
多 个 服务 器 的 环境 还 是 非常 方便 的 。 调 用 connect () ， 并 将 结果 赋值 给 变量 。 例 
如 ， 在 分 片 环境 中 ， 可 能 想 用 mongos 表示 mongos 服务 器 ， 还 想 要 有 到 每 个 片 的 
连接 ， 可 以 如 下 操作 : 
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> mongog = connect ("localhost:27017") 
connecting to: localhost:27017 
localhost:27017 

> Shard0 = connect ("localhost:30000") 
connecting to: localhost:30000 
localhost:30000 

3 Shardl = connect ("localhost:30001") 
connecting to: localhost:30001 
localhost:30001 


随后 ， 就 能 将 mongos、shard0 和 shard1l 作为 db 变量 使 用 (但 一 些 特殊 的 辅助 
方法 不 好 用 ， 比 如 use foo 或 者 show collections)。 


shell 工 具 
还 有 些 有 用 的 shell 函数 前 面 没 有 讲 到 。 


对 于 管理 多 个 数据 库 ， 有 多 个 数据 库 变量 就 比 简单 的 ab 有 有 用处。 例如， 在 分 片 中 ， 
要 维护 一 个 单独 的 指向 配置 服务 右 的 变量 : 


> config = db.getSisterDB{'"config'’) 
config 
> config.shards.find!{) 


用 connect 函数 可 以 在 一 个 shell 中 连接 多 个 服务 器 : 


> shard db = connect ("shard.example.com:27017/mydb") 
connecting to shard.example.com:27017/mydb 
myadb 


> 


shell 下 还 可 以 运行 shell 命令 : 


> runProgram{("echo", "Hello", "world"') 

shell: started mongo program echo Hello world 
0 

> sh6487| Hello world 


(输出 看 上 去 有 点 奇怪 ， 因 为 shell 还 在 运行 中 。) 
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大 多 数 情况 下 ，MongoDB 的 用 户 可 将 其 视 为 黑 合 。 若 想 理 解 性 能 特点 或 者 深入 耳 
解 系 统 ， 就 得 深入 MongoDB 内 部 了 。 


C.1 BSON 


MongoDB 的 文档 是 个 抽象 概念 。 其 具体 的 呈现 形式 取决 于 使 用 的 驱动 和 编程 语言 。 
因为 MongoDB 中 的 通信 大 量 依赖 于 文档 ， 所 以 需要 一 种 所 有 驱动 、 工 具 和 进程 都 
能 共享 的 文档 表达 方式 。 这 种 表达 叫做 Binary JSON (BSON)。 


BSON 是 轻 量 的 二 进 制 格式 ， 能 将 MongoDB 的 所 有 文档 表示 为 字 节 字符 串 。 数 据 
库 能 理解 BSON， 存 在 磁盘 上 的 文档 也 是 这 种 格式 。 


当 驱 动 要 插入 文档 ,或 者 将 文档 作为 查询 条 件 ， 驱 动 会 将 文档 转换 成 BSON， 然 后 
再 发 往 服务 器 。 同 样 ， 返 回 到 客户 端的 文档 也 是 BSON 格式 的 字符 串 。 驱 动 需要 将 
这 些 数据 解码 ， 变 成 本 机 的 文档 表示 ， 最 后 返回 给 客户 端 。 
用 BSON 格式 的 3 个 主要 目标 。 
。 效率 
BSON 设计 用 来 更 有 效 地 表示 数据 ， 占 用 更 少 的 空间 。 最 差 的 情况 下 ，BSON 比 
JSON 效率 略 低 ; 最 好 的 情况 下 (比如 存放 二 进 制 数据 或 者 大 数 )，BSON 要 高 效 
得 多 。 
。 可 遍历 性 
有 些 时 候 BSON 牺 性 了 空间 效率 ， 换 取 更 容易 遍历 的 格式 。 例 如 ， 在 字符 串 前 面 
加 入 其 长 度 ， 而 不 是 在 结尾 处 使 用 一 个 终结 符 。 这 对 MongoDB 内 省 文档 很 有 用 。 
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各 性 能 
最 后 BSON 的 编码 和 解码 速度 都 很 快 。 它 用 C 风格 的 表现 方式 来 表示 类 型 ， 在 
大 多 数 编程 语言 中 都 非常 快 。 


关于 BSON 的 详细 说 明 ， 参 见 http://www.bsonspec.org。 


C.2 Mongo 传 输 协议 


驱动 在 TCP/IP 协议 的 基础 上 简单 封装 了 MongoDB 传输 协议 ， 用 来 与 MongoDB 交 
互 。MongoDB 的 wiki (http:www.mongodb.org/display/DOCS/Mongo+Wire+Protocol ) 
中 对 该 协议 有 详细 的 说 明 ， 不 过 基本 上 就 是 一 个 简单 封装 的 BSON 数据 。 例 如 ， 插 
入 消息 会 有 20 字 市 的 头 部 数据 (包括 告知 服务 器 执行 插入 操作 的 代码 ， 以 及 消 息 长 
度 )、 要 插入 的 集合 名 、 要 插入 的 BSON 文档 列表 。 


C.3 数据 文件 


MongoDB 的 数据 目录 (默认 是 /data/db/) 中 ， 每 个 数据 库 都 有 几 个 独立 的 文件 。 每 
个 数据 有 一 个 .ns 文件 和 寿 干 数据 文件 ， 数 据 文件 以 递增 的 数字 结尾 。 所 以 ， 数 据 
库 foo 会 被 存放 在 foo.ns、foo.0、foo.1、foo.2 等 文件 中 。 


每 个 新 的 以 数字 结尾 的 数据 文件 大 小 会 加 倍 ， 直 到 达到 最 大 值 2 GB 。 这 是 为 了 让 小 
数据 库 不 浪费 太 多 的 磁盘 空间 ， 同 时 让 大 数据 使 用 磁盘 上 连续 的 空间 。 


MongoDB 为 了 保证 性 能 还 会 预 分 配 数 据 文件 (可 以 用 --noprealloc 关闭 这 一 功能 
预 分 配 在 后 台 完 成 ， 有 数据 文件 被 填 满 时 就 自动 启动 。 这 就 意味 着 MongoDB 服务 器 总 
是 试图 为 每 一 个 数据 库 保留 一 个 额外 的 空 数据 文件 ， 来 避免 文件 分 配 所 产生 的 阻塞 。 


C.4 命名 空间 和 数据 域 


在 数据 文件 内 部 ， 每 个 数据 库 都 是 按照 命名 空间 组 织 的 ， 一 种 类 别 的 数据 与 其 他 类 
别 的 分 开 存放 。 每 个 集合 的 文档 都 有 自己 的 命名 空间 ， 索 引 也 是 。 命 名 空间 的 元 数 
据 存放 在 数据 库 的 .ns 文件 中 。 


每 个 命名 空间 的 数据 都 被 分 成 者 干 组 ， 放 到 数据 文件 的 某 一 区 域内 ， 这 个 区 域 称 为 
数据 域 。 在 图 C-1 中 可 以 看 到 数据 库 foo 有 3 个 数据 文件 ， 其 中 第 3 个 是 预 分 配 的 
空 文件 。 前 两 个 数据 文件 被 分 成 几 个 数据 域 ， 属于 几 个 不 同 的 命名 空间 。 


译注 1， MongoDB 传 输 协议 和 HTTP、FTP 一 样 ， 是 一 种 应 用 层 协 议 ， 只 不 过 这 种 协议 目前 只 用 在 MongeDB 
相关 应 用 中 。 
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| foo.$freelist 
loule | 预 分 配 空间 





图 C-1; 命名 空间 和 数据 域 


图 C-1 命名 空间 和 数据 域 还 展示 了 一 些 关于 命名 空间 和 数据 域 有 趣 的 地 方 。 每 个 命名 
空间 可 以 有 几 个 不 同 的 数据 域 ， 在 磁盘 上 不 ( 必 ) 连续 。 类 似 于 数据 库 的 数据 文件 ， 
每 次 新 分 配 的 命名 空间 的 数据 域 大 小 也 会 增加 。 这 是 为 了 平衡 命名 空间 浪费 的 空间 和 
尽量 让 一 个 命名 空间 的 数据 连续 做 出 的 折 中 。 图 中 还 有 个 特殊 的 命名 空间 $freelist， 
存放 着 不 再 使 用 的 数据 域 ( 例 如， 删除 集合 或 索引 产生 的 数据 域 )。 当 命名 空间 分 配 新 
的 数据 域 时 ， 系 统 会 先 查 找 空 亲 列表， 看 看 有 疫 有 合适 大 小 的 数据 域 可 用 。 


C.5 ”内存 映射 存储 引擎 


MongoDB 上 默认 的 存储 引擎 (也 是 本 书写 作 时 唯一 的 存储 引擎 ) 是 内 存 映 射 引擎 。 
当 服 务 器 启动 后 ， 将 所 有 数据 文件 映射 到 内 存 。 然 后 由 操作 系统 来 负责 将 缓冲 数据 
写 入 磁盘 并 将 数据 调 入 调 出 内 存 页 面 。 这 样 的 引擎 有 若干 重要 的 特性 。 


。 MongoDB 管理 内 存 的 代码 非常 精炼 ， 原 因 就 是 将 大 部 分 工作 推 给 了 操作 系统 。 

。 MongoDB 服务 器 进程 的 虚拟 大 小 通常 会 非常 大 ， 超 过 整个 数据 集 的 大 小 。 这 没 关 
系 ， 因 为 操作 系统 会 处 理 让 哪些 数据 常 驻 内 存 。 

。 MongoDB 不 能 控制 数据 写 和 到 磁盘 的 顺序 ， 也 就 不 能 用 预 写 日 志 提 供 单 机 的 持久 
性 。 正 在 为 MongoDB 开发 的 一 种 新 的 存储 引擎 会 提供 这 种 功能 。 

。 32 位 的 MongoDB 服务 器 有 个 限制 ， 每 个 mongod 最 多 只 能 处 理 2 GB 数据 。 这 是 
因为 所 有 数据 必须 能 用 32 位 地 址 访问 到 。 
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关于 封面 


本 书 的 封面 动物 是 狂 狐 狼 ， 是 一 种 马达 加 斯 加 特有 的 灵 长 类 动物 。 据 说 狐 猴 的 祖 
先 在 6500 万 年 前 利用 木 徐 从 非洲 大 陆 抵达 马达 加 斯 加 (行程 大 约 350 英里 )。 狐 
猴 摆 脱 了 与 非洲 其 他 物种 的 竞争 (如 猴子 和 松鼠 )， 并 且 适 应 了 生态 圈 的 各 种 位 
置 ， 发 展 至今 种 类 已 接近 100 种 。 狐 狼 (lemur) 的 得 名 来 自 于 古 罗 马 神 话 中 的 幽灵 
(lemure)， 主 要 因 其 犹如 鬼 一 般 的 叫 声 、 恒 伏 夜 出 ， 并 有 发 光 的 眼睛 而 得 名 。 马 达 
加 斯 加 的 文化 中 认为 狐 狼 有 超自然 力 ， 有 的 将 其 作为 祖先 的 灵魂 ， 有 的 作为 禁忌 之 
源 ， 还 有 的 作为 复仇 精神 。 有 的 部 落 将 某 种 狐 猴 作为 本 族 的 祖先 。 


猿 狐 钦 在 狐 猴 中 算是 中 等 体型 ， 大 约 12 ~ 18 英寸 长 ，3 ~ 4 磅 重 。 尾 巴 有 16 ~ 
25 英寸 长 。 肉 性 和 幼年 狐 猴 有 白 须 ， 妈 性 有 红色 须 和 闫 。 猎 狐 猴 以 水 果 和 和 花 条 为 
食 ， 是 一 些 植物 的 传粉 者 。 猎 狐 猴 非常 喜欢 木棉 花 的 关 ， 也 吃 树叶 和 昆虫 。 

猿 狐 猴 生 活 在 马达 加 斯 加 西北 部 的 干燥 的 森林 中 。 世 界 上 只 有 两 种 狐 猴 可 以 在 马达 
.加 斯 加 以 外 找到 ， 猿 狐 猴 就 是 其 中 一 种 ， 它 们 在 科 摩 罗 群 岛 也 有 分 布 〈 据 说 是 人 类 
将 其 带 过 去 的 )。 铬 狐 猴 有 种 特别 的 本 领 ， 可 以 选择 在 白天 醒 着 也 可 以 在 夜晚 醒 着 ， 
改变 其 活动 规律 是 为 了 适应 雨季 和 旱季 。 猎 狐 猴 的 栖息 地 越 来 越 少 ， 已 经 是 一 种 珍 
惜 的 物种 了 。 


封面 图 片 选 自 Lydekker 的 Royal Natural History。 
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